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内 容 提 要 

本 书 是 一 部 UNIX 网 络 编程 的 经 典 之 作 ! 书 中 全 面 深入 地 介绍 了 如 
何 使 用 套 接 字 API 进 行 网 络 编程 。 全 书 不 但 介绍 了 基本 编程 内 容 ， 还 
兽 盖 了 与 套 接 字 编 程 相关 的 高 级 主题 ， 对 于 客户 /服务 费 程 序 的 各 种 设 
计 方 法 也 作 了 完整 的 探讨 ， 最 后 还 深入 分 析 了 流 这 种 设备 驱动 机 制 。 

本 书 内 容 详尽 且 具 权威 性 ， 几 乎 每 章 都 提供 精 选 的 习题 ， 并 提供 
了 部 分 习题 的 答案 ， 是 网 络 研究 和 开发 人 员 理想 的 参考 书 。 
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本 书 的 第 1 版 于 1990 年 问世 ， 并 迅速 成 为 程序 员 学 习 网 络 编程 的 权 
威 参 考 书 。 时 至 今日 ， 计 算 机 网 络 技术 已 发 生 了 翻天 和 莉 地 的 变化 。 只 
要 看 看 第 1 版 给 出 的 用 于 征集 反馈 意见 的 地 址 (“uunet!hsi!netbook” ) 
METAT. (有 多 少 读 者 能 看 出 这 是 20 世 纪 80 年 代 很 流行 的 
UUCP 拨 号 网 络 的 地 址 ? ) 

现在 UUCP 网 络 已 经 很 罕见 了 ， 而 无 线 网 络 等 新 技术 则 变 得 无 处 
不 在 ! 在 这 种 背景 下 ， 新 的 网 络 协议 和 编程 范 型 业已 开发 出 来 ， 但 程 
序 员 却 否 于 找 不 到 一 本 好 的 参考 书 来 学 习 这 些 复杂 的 新 技术 。 

这 本 书 填补 了 这 一 空白 。 拥 有 本 书 旧 版 的 读者 一 定 想 要 一 个 新 的 
版 本 来 学 习 新 的 编程 方法 ， 了 解 IPv6 等 下 一 代 协 议 方 面 的 新 内 容 。 所 
有 人 都 非常 期 竺 本 书 ， 因 为 它 完美 地 结合 了 实 跨 经验、 历史 视角 以 及 
在 本 领域 浸 淫 多 年 才能 获得 的 透彻 理解 。 

阅读 本 书 是 一 种 享受 ， 我 收获 顾 丰 。 相 信 大 家 定 会 有 同感 。 

Sam Leffler 


概述 
本 书面 癌 的 读者 是 那些 希望 目 己 编写 的 程序 能 使 用 称 为 套 接 字 
(socket) 的 API 进 行 彼此 通信 的 人 人。 有些 读者 可 能 已 经 非常 熟悉 套 接 

字 了 ， 因 为 这 个 模型 几乎 已 经 成 了 网 络 编程 的 同义词 ,但 有 些 读者 可 
能 仍 需要 从 头 开 始 学 习 。 本 书 想 达到 的 目标 是 向 大 家 提供 网 络 编程 指 
导 。 这 些 内 容 不 仅 适 用 于 专业 人 士 ， 也 适用 于 初学 者 ; 不 仅 适 用 于 维 
护 已 有 代码 ， 也 适用 于 开发 新 的 网 络 应 用 程序 ， 此 外 ， 还 适用 于 那些 
只 是 想 了 解 一 下 目 己 系统 中 网 络 组 件 的 工作 原理 的 人 。 

书 中 的 所 有 示例 都 是 在 Unix 系 统 上 测试 通过 的 真实 的 、 可 运行 的 
人 代码。 但是， 考虑 到 许多 非 Unix 的 操作 系统 也 文 持 套 接 字 API， 因 和 而 
我 们 选取 的 示例 与 所 讲述 的 一 般 性 概念 ， 在 很 大 程度 上 是 与 操作 系统 
无 天 的 。 几 乎 每 种 操作 系统 都 提供 了 大 量 的 网 络 应 用 程序 ， 如 网 页 浏 
览 右 、 电 子 邮件 客户 端 、 文 件 共享 服务 右 等 。 我 们 按 常 规 的 划分 方法 
把 这 些 应 用 程序 分 为 客户 程序 和 服务 句 程 序 ， 并 在 书 中 多 次 编写 了 相 
应 的 小 型 示例 。 

面向 Unix 介 绍 网 络 编程 自然 免不了 要 介绍 Unix 本 里 和 TCP/IP 的 相 
天 背景 知识 。 需 要 更 详尽 的 背景 知识 时 ， 我 们 会 指引 读者 查阅 其 他 书 
籍 。 本 书 中 经 常 提 到 以 下 4 本 书 ， 我 们 将 其 简 记 如 下 。 

APUE: Advanced Programming in the UNIX Environment [Stevens 
1992] ° 

TCPv1: TCP/IP Illustrated, Volume 1 [Stevens 1994] ° 


TCPv2: TCP/IP Illustrated, Volume 2 [Wright and Stevens 1995] ° 

TCPv3: TCP/IP Illustrated, Volume 3 [Stevens 1996] ° 

K'PTCPv28.& SSARNAR DAA , Tu T 
套 接 字 API 中 网 络 编程 画 数 (socket > bind ^ connect) 的 真实 4.4BSD 
实现 。 如 果 已 经 理解 某 个 特性 的 实现 ， 那 么 在 应 用 程序 中 使 用 该 特性 
就 更 有 意义 了 。 

与 第 2 版 的 区 别 

从 20 世 纪 80 年 代 开 始 ， 套 接 字 就 差 不 多 是 现在 这 个 样子 了 。 时 至 
今日 ， 套 搂 字 仍然 是 网 络 API 的 首选 ， 其 最 初 的 设计 的 确 值 得 称道 。 
因此 ， 当 读者 发 现 我 们 对 出 版 于 1998 年 的 第 2 版 又 做 了 不 少 改动 时 ， 可 
能 会 觉得 惊讶 。 本 书 中 所 做 的 改动 归纳 如 下 。 

新 版 本 包含 了 IPv6 的 最 新 信息 。 在 第 2 版 出 版 时 ，IPv6 尚 处 于 草案 
阶段 ， 这 些 年 来 已 经 有 所 发 展 。 

更 新 了 全 部 函数 和 示例 的 描述 ， 以 反映 最 新 的 POSIX 规 范 

(POSIX 1003.1-2001) ， 即 Single Unix Specification Version 3。 

删 去 了 X/Open 传 输 接 口 (XT) 的 内 容 。 这 个 API 已 经 不 常用 了 ， 
连 最 新 的 POSIX Ach TH > 

删 去 了 事务 TCP 协 议 (T/TCP) 的 内 容 。 

新 增 了 三 章 用 于 描述 一 种 相对 较 新 的 传输 协议 一 一 SCTP。 这 个 可 
靠 的 面 回 消息 的 协议 能 够 在 两 个 端点 之 间 提 供 多 个 流 ， 并 为 多 归属 技 
术 提 供 传输 层 文 持 。 该 协议 最 初 是 为 了 在 因特网 上 传输 电话 信号 而 设 
计 的 ， 但 它 的 一 些 特性 可 以 用 于 许多 应 用 。 

新 增 一 章 描 述 密 钥 管 理 套 接 字 ， 该 套 接 字 可 用 于 网 际 协议 安全 

(IPsec) 和 其 他 网 络 安全 服务 。 

第 2 版 中 使 用 的 机 器 及 Unix 变 体 都 按 最 新 版 本 更 新 ， 示 例 也 根据 机 

需 的 特性 做 了 修改 。 许 多 情况 下 ， 修 改 示 例 是 因为 操作 系统 厂商 修正 


了 程序 缺陷 或 者 新 增 了 特性 。 但 读者 可 以 想见 ， 新 的 缺陷 总 能 不 时 地 
RAH « 本 书 中 用 于 测试 示例 的 机 器 如 下 : 
运行 MacOS/X 10.2.68 Apple Power PC; 
运行 HP-UX 11i 的 HP PA-RISC; 
运行 AIX 5.1 的 IBM Power PC; 
运行 FreeBSD 4.8 的 Intel x86; 
运行 Linux 2.4.7 的 Intel x86; 
运行 FreeBSD 5.1 的 Sun SPARC; 

运行 Solaris 9 的 Sun SPARC ° 

这 些 机 器 的 具体 用 法 见 图 1-16。 

本 系列 的 第 2 卷 (《UNIX 网 络 编程 62: 进程 间 通 信 》) 基于 本 
卷 的 内 容 进一步 讨论 了 消息 传递 、 同 步 、 共 享 内 存 及 远程 过 程 调 用 。 

如 何 使 用 本 书 

本 书 既 可 以 作为 网 络 编程 的 教程 ， 也 可 以 作为 有 经 验 的 程序 员 的 
参考 书 。 用 作 网 络 编程 的 教程 或 入 门 级 教材 时 ， 重 点 应 放 在 第 二 部 分 

(第 3 章 至 第 11 章 ) ， 然 后 可 以 看 看 其 他 感 兴趣 的 主题 。 第 二 部 分 包 合 

了 TCP 和 UDP 的 基本 套 接 字画 数 ， 以 及 SCTP、LIO 多 路 复 用 、 套 接 字 
选项 和 基本 名 字 与 地 址 的 转换 。 所 有 读者 都 应 该 阅读 第 1 章 ， 尤 其 是 
1.4 方 ， 介 绍 了 一 些 叶 罕 全 书 的 包 襄 函数 。 读 者 可 以 根据 目 身 的 知识 背 
景 ， 选 读 第 2 章 ， 或 许 还 有 附录 A。 第 三 部 分 的 多 数 章 节 可 以 彼此 独立 
地 进行 阅读 。 

为 了 方便 读者 把 本 书 作为 参考 书 ， 本 书 提供 了 完整 的 全 文 索引 ， 
并 在 最 后 几 页 总 结 了 每 个 函数 和 结构 的 详细 描述 在 正文 中 的 哪里 可 以 
找到 。 为 了 给 不 按 顺 序 阅 读本 书 的 读者 提供 方便 ， 我 们 在 全 书 中 为 相 
关 主 题 提 供 了 大 量 的 交 又 引用 。 

源 代码 与 勘误 


> 


书 中 所 有 示例 的 源 代 码 可 以 从 www.unpbook.com 获 得 [1] 。 学 习 网 
络 编程 的 最 好 方法 就 是 下 载 这 些 程序 ， 对 其 进行 修改 和 改进 。 只 有 这 
样 实际 编写 代码 才能 深入 理解 有 关 概 念 和 方法 。 每 章 末尾 提供 了 大 量 
的 习题 ， 大 部 分 在 附 永 E 中 给 出 答案 。 

本 书 的 最 新 勘误 表 也 可 以 在 上 述 网 站 获取 。 
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第 1 章 简介 
1.1 概述 


要 编写 通过 计算 机 网 络 通信 的 程序 ， 首 移 要 确定 这 些 程序 相互 通信 所 用 
的 协议 (protocol) 。 在 深入 设计 一 个 协议 的 细节 之 前 ， 应 该 从 高 层次 决断 通 
信 由 哪个 程序 发 起 以 及 响应 在 何 时 产生 。 举 例 来 说 ， 一 般 认 为 Web 服 务 器 程序 
是 一 个 长 时 间 运 行 的 程序 〈 即 所 谓 的 守护 程序 ，daemon) ， 它 只 在 响应 来 自 
网 络 的 请 求 时 才 发 送 网 络 消 息 。 协 议 的 另 一 端 是 Web 客户 程序 ， 如 某 种 浏览 
器 ， 与 服务 器 进程 的 通信 和 总 是 由 客户 进程 发 起 。 大 多 数 网 络 应 用 束 是 按照 划 
分 成 客户 (client) 和 服务 器 (server) [来 组 织 的 。 在 设计 网 络 应 用 [2] 
时 ， 确 定 总 是 由 客户 发 起 请 求 往往 能 够 简化 协议 和 程序 [3] 本 喘 。 当 然 一 些 较 
为 复杂 的 网 络 应 用 还 需要 异步 回调 (asynchronous callback) 通信 ， 也 就 是 由 
服务 器 同 客 户 发 起 请 求 消息 。 然 而 坚持 采纳 图 1-1 所 示 的 基本 客户 /服务 絮 模 型 
的 网 络 应 用 毕竟 要 普遍 得 多 。 


i 应 用 协议 


图 1-1 网 络 应 用 : 客户 和 服务 器 
通 肖 客户 每 次 只 与 一 个 服务 器 通 信 ， 不 过 以 使 用 Web 浏 咒 器 为 例 ， 我 们 也 
许 在 10 分 钟 内 束 可 以 与 许多 不 同 的 Web 服 务 器 通信 。 从 服务 器 的 角度 来 看 ， 一 


个 服务 器 同时 与 多 个 客户 通信 并 不 稀奇 ， 见 图 1-2。 本 书后 面 将 介绍 若干 种 让 
一 个 服务 器 同时 处 理 多 个 客户 请 求 的 方法 。 

可 认为 客户 与 服务 器 之 间 是 通过 某 个 网 络 协议 通信 的 ， 但 实际 上 ， 这 样 
的 通信 通常 涉及 多 个 网 络 协议 层 。 本 书 的 焦点 是 TCP/IP 协 议 族 ， 也 称 为 网 际 
协议 族 。 举 例 来 说 ，Web 客 户 与 服务 器 之 间 使 用 TCP (Transmission Control 
Protocol， 传 输 控制 协议 ) 通信 。TCP 又 转 而 使 用 IP (Internet Protocol， 网 际 协 
W) 通信 ，IP 再 通过 某 种 形式 的 数据 链 路 层 通 信 。 如 果 客 户 与 服务 器 处 于 同 
一 个 以 太 网 ， 束 有 图 1-3 所 示 的 通信 层次 。 


WA d 


图 1-2 一 个 服务 器 同时 处 理 多 个 客户 的 请 求 
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以 太 网 
图 1-3 客户 与 服务 器 使 用 TCP 在 同一 个 以 太 网 中 通信 


尽管 客户 与 服务 器 之 间 使 用 某 个 应 用 协议 通信 ， 传 输 层 却 使 用 TCP 通 信 。 
注意 ， 客 户 与 服务 器 之 间 的 信息 流 在 其 中 一 端 是 向 下 通过 协议 栈 的 ， 跨 越 网 
络 后 ， 在 另 一 端 则 是 向 上 通过 协议 栈 的 。 另 外 注意 ， 客 户 和 服务 器 通常 是 用 
户 进 程 ， 而 TCP 和 了 协议 通常 是 内 核 中 协议 栈 的 一 部 分 。 我 们 在 图 1-3 右 边 标 
出 了 4 个 层 。 

本 书 讨论 的 协议 不 限于 TCP 和 IP。 有 些 客户 和 服务 器 改 用 UDP (User 
Datagram Protocol， 用 户 数据 报 协议 ) 而 不 是 TCP， 第 2 章 将 详细 介绍 这 两 个 
协议 。 此 外 ， 本 书 使 用 术语 “IP” 来 称谓 的 那个 协议 ， 自 20 世 纪 80 年 代 早 期 以 来 
一 直 在 使 用 ， 其 实 其 正式 名 称 是 IPv4 (IP version 4，IP 版 本 4) 。IPv4 的 一 个 
新 版 本 IPv6 (IP version 6，IP 版 本 6) 是 在 20 世 纪 90 年 代 中 期 开发 出 来 的 ， 将 
来 会 取代 IPv4。 本 书 既 讨论 使 用 IPv4 的 网 络 应 用 程序 的 开发 ， 也 讨论 使 用 IPv6 
的 网 络 应 用 程序 的 开发 。 附 录 A 会 给 出 IPv4 和 IPv6 的 一 个 比较 ， 同 时 介绍 正文 
中 将 讨论 的 其 他 协议 。 

同一 网 络 应 用 的 客户 和 服务 器 无 需 如 图 1-3 所 示 处 于 同一 个 局 域 网 (local 
area network, LAN) 。 例 如 ， 图 1-4 展 示 了 处 于 不 同 局 域 网 中 的 客户 和 服务 
器 ， 而 这 两 个 局 域 网 是 使 用 路 由 器 (router) 连接 到 广域网 (wide area 
network，WAN) 的 。 


客户 
应 用 进程 


使 用 
TCP/IP 
的 主机 


路 由 器 路 由 器 


图 1-4 处 于 不 同 局 域 网 的 客户 主机 和 服务 器 主机 通过 广域网 连接 

路 由 器 是 广域网 的 架构 设备 。 当 今 最 大 的 广域网 是 因特网 [4] 
(Internet) 。 许 多 公司 也 构建 自己 的 广域网 ， 而 这 些 私 用 的 广域网 既 可 以 连 
接 到 因特网 ， 也 可 以 不 连接 到 因特网 。 

本 章 其 余部 分 将 概述 多 个 主题 ， 这 些 主题 在 后 续 章节 中 还 会 具体 介绍 。 
我 们 从 一 个 尽管 简单 却 完整 的 TCP 客 户 程序 开始 ， 它 展示 了 全 书 都 会 遇 到 的 许 
多 函数 调用 和 概念 。 这 个 客户 程序 只 能 在 IPv4 上 运行 ， 不 过 我 们 会 给 出 让 它 
在 IPv6 上 运行 所 需 进 行 的 修改 。 更 好 的 办 法 是 编写 独立 于 协议 的 客户 和 服务 
器 程序 ， 这 在 第 11 章 中 会 讨论 。 本 章 同时 展示 一 个 与 该 TCP 客 户 程序 配合 工作 
的 完整 的 TCP 服 务 器 程序 。 

为 了 简化 代码 ， 我 们 对 本 书 中 要 调用 的 大 多 数 系统 函数 定义 了 各 自 的 包 
庄 函 数 。 多 数 情 况 下 我 们 可 以 使 用 这 些 包 庄 画 数 来 检查 错误 ， 输 出 适当 的 消 
息 ， 以 及 在 出 错时 终止 程序 的 运行 。 我 们 还 给 出 了 本 书 中 大 多 数 例 子 所 用 的 
测 斌 网络、 主机、 路 由 器 以 及 它们 的 主机 名 、IP 地 址 和 操作 系统 。 

如 今 讨论 Unix 时 经 常 使 用 POSIX 一 词 ， 它 是 一 种 被 多 数 厂 商 采纳 的 标 
准 。 我 们 将 介绍 POSIX 的 历史 以 及 它 对 本 书 所 讲述 的 API 的 影响 ， 并 介绍 该 领 
域 的 其 他 主要 标准 。 


1.2 一 个 简单 的 时 间 获 取 客 户 程序 


让 我 们 考虑 一 个 具体 的 例子 ， 引 入 将 在 本 书 中 中 到 的 许多 概念 和 说 法 。 


图 1-5 所 示 的 是 TCP 当 前 时 间 查 询 客户 程序 的 一 个 实现 。 该 客户 与 其 服务 器 建 
立 一 个 TCP 连 接 后 ， 服 务 器 以 直观 可 读 格 式 人 简单 地 送 回 当前 时 间 和 日 期 。 


明 。 


intro/daytimetcpcli.c 


1 #include "unp.h" 


2 int 


3 main(int argc, char **argv) 


af 


int sockfd, n; 
char recvline [MAXLINE + 1]; 


struct sockaddr in servaddr; 


if (argc != 2) 


err quit("usage: a.out <IPaddress>"); 


if ( (sockfd = socket (AF_INET, SOCK STREAM, 0)) < 0) 


err_sys("socket error"); 


bzero (&servaddr, sizeof (servaddr)); 

servaddr.sin family = AF_INET; 

servaddr.sin port = htons(13); /* daytime server */ 

if (inet pton(AF INET, argv[1], &servaddr.sin addr) <= 0) 
err quit("inet pton error for $s", argv[1]); 


if (connect(sockfd, (SA *) &servaddr, sizeof(servaddr)) < 0) 


err sys("connect error"); 


while ( (n = read(sockfd, recvline, MAXLINE)) > 0) ( 
recvline[n] = 0; /* null terminate */ 
if (fputs(recvline, stdout) -- EOF) 
err sys("fputs error"); 
} 
if (n. 0) 


err sys ("read error"); 


exit(0); 


intro/daytimetcpcli.c 


图 1-5 TCP 时 间 获 取 客 户 程序 


这 束 是 本 书 用 于 展示 所 有 源 代 码 的 格式 。 每 个 非 空 行 都 被 编排 行 号 。 如 
稍 后 所 示 ， 代 码 正 文 讲解 部 分 一 开始 标注 该 段 代码 起 始 与 结束 的 行 号 。 有 的 
段落 会 以 一 个 简短 的 、 描 述 性 的 醒目 标题 起 头 ， 对 所 讲解 代码 段 进行 概要 说 


每 个 源 代码 段 起 始 与 结束 处 的 水 平 线 标 出 了 该 代码 段 所 在 的 源 代码 文件 


名 ， 对 于 本 例 就 是 intro 目 录 下 的 daytimetcpcli.c 文 件 (intro/daytimetcpcli.c) ° 
本 书 所 有 例子 的 源 代码 都 可 免费 获得 〈 见 前 言 ) ， 在 此 标注 它们 的 文件 名 便 


于 读者 找到 其 源 文件 。 在 阅读 本 书 期 间 ， 编 译 、 运 行 特别 是 修改 这 些 程序 古 
学 习 网 络 编程 概念 的 好 方法 。 

整 本 书 中 我 们 随时 会 插入 缩 进 的 小 字号 段落 (如 此 处 所 示 ) 来 说 明 实 现 
的 细节 和 有 历史 上 的 观点 。 

如 果 编 译 该 程序 生成 默认 的 a.out 可 执行 文件 后 执行 它 ， 我 们 会 得 到 如 下 
HR: 


solaris % a.out 206.168.112.96 我 们 的 输入 
Mon May 26 20:58:40 2003 程序 的 输出 


当 我 们 展示 交互 的 输入 和 输出 时 ， 输 入 总 是 采用 加 粗 的 等 宽 字 体 ， 而 计 
算 机 的 输出 总 是 采用 不 加 粗 的 等 宽 字 体 。 注 释 用 宋体 字 加 在 右边 。 作 为 shell 
提示 一 部 分 的 系统 名 字 (本 例 中 为 solaris) 指明 在 哪个 主机 上 执行 该 命令 。 
1-16 展 示 了 用 于 运行 本 书 中 大 多 数 例子 的 各 个 系统 ， 它 们 的 主机 名 本 号 通 常 就 
说 明了 各 自 的 操作 系统 。 

在 这 个 短 短 27 行 的 程序 中 有 许多 细节 值得 考虑 。 这 里 我 们 简短 地 提 一 
下 ， 目 的 是 让 初次 遇 到 网 络 程序 的 读者 有 所 准备 ， 本 书后 面 会 更 详细 地 说 明 
这 些 内 容 。 

包含 头 文件 

1 包含 我 们 目 己 编写 的 名 为 unp.h 的 头 文 件 ， 见 D.1 节 。 该 头 文件 包含 了 大 
部 分 网 络 程序 都 需要 的 许多 系统 头 文 件 ， 并 定义 了 所 用 到 的 各 种 常 值 [5] (如 
MAXLINE) 。 

命令 行 参数 

23 这 是 main 函 数 的 定义 ， 其 形式 参数 就 是 命令 行 参 数 。 本 书 中 的 代码 
假设 使 用 ANSI C 编 译 器 〈 也 称 为 ISO C 编 译 器 ) 编写 。 

创建 TCP 套 接 字 

10 ~ 11 socket ER Z& A E — ^^ M Es ( AF_INET) + T Mi 

(SOCK STREAM) 套 接 字 ， 它 是 TCP 套 接 字 的 花哨 和 名字。 该 函数 返回 一 个 
小 整数 描述 符 ， 以 后 的 所 有 男 数 调用 (如 随后 的 connect 和 read) 就 用 该 描述 符 


来 标识 这 个 套 接 字 。 


许 语句 包含 3 个 操作 : 调用 socket 函 数 ， 把 返回 值 赋 给 变量 sockfd， 再 测试 
所 赋 的 这 个 值 是 否 小 于 0。 虽 然 我 们 可 以 把 该 语句 分 割 成 两 条 C 语 句 ; 

sockfd = socket(AF INET, SOCK_STREAM, 0); 

if (sockfd « 0) 
但 是 把 这 两 行 合 并 成 一 行 却 是 常见 的 C 语 言 习 惯用 法 。 按 照 C 语 言 的 优先 
规则 (小 于 运算 符 的 优先 级 高 于 赋值 运算 符 ) ， 男 数 调 用 和 赋值 语句 外 边 的 
那 对 括号 是 必需 的 。 作 为 一 种 编码 风格 ， 作 者 总 是 在 这 样 的 两 个 左 括号 间 加 
一 个 空格 ， 提 示 比 较 运 算 的 左 侧 同 时 也 是 一 个 赋值 运算 。 (这 种 风格 借鉴 自 
Minix 源 代码 [Tenenbaum 1987] 。) 该 程序 稍 后 的 while 语 句 也 使 用 相同 的 样 
ZU o 

后 面 我 们 将 遇 到 术语 套 接 字 (socket [6] ) 的 许多 不 同 用 法 。 首 先 ， 我 们 
正在 使 用 的 API 称 为 套 接 字 API (sockets API) 。 上 一 段 中 名 为 socket 的 函数 就 
是 套 接 字 API 的 一 部 分 。 上 一 段 中 我 们 还 提 到 了 “TCP 套 接 字 ”， 它 是 “<TCP 端 
Ai" (TCP endpoint) 的 同义词 。 如 果 socket 范 数 调 用 失败 ， 我 们 就 调用 自己 的 
err_sys 汞 数 放 弃 程 序 运 行 。err_sys 男 数 输 出 我 们 作为 参数 提供 的 出 错 消 息 以 及 
所 发 生 的 系统 错误 的 描述 (141 À socket EW AK HI A] BEES RZ — “Protocol not 
supported” (协议 不 受 支 持 ) ) ， 然 后 终止 进程 。 这 个 函数 和 以 err_ 开 头 的 其 
他 者 干 个 函数 都 是 我 们 上 自行 编写 的 ， 它 们 的 调用 将 贯穿 全 书 ，D.3 和 会 描述 这 

指定 服务 器 的 IP 地 址 和 端口 

12~16 我 们 把 服务 器 的 IP 地 址 和 端口 号 填 入 一 个 网 际 套 接 字 地 址 结构 

(一 个 名 为 servaddr 的 sockaddr_in 结 构 变 量 ) 。 使 用 bzero 把 整个 结构 清 零 后 ， 

置地 址 族 为 AF_INET， 端 口号 为 13 (这 是 时 间 获 取 服 务 器 的 众所周知 端口 ， 
支持 该 服务 的 任何 TCP/IP 主 机 都 使 用 这 个 端口 号 ， 见 图 2-18) ，IP 地 址 为 第 一 
个 命令 行 参数 的 值 (argv[1]) 。 网 际 套 接 字 地 址 结构 中 JP 地 址 和 端口 号 这 两 个 
成 员 必 须 使 用 特定 格式 ， 为 此 我 们 调用 库 函 数 htons (“主机 到 网 络 短 整 数 ”) 
去 转换 二 进 制 端口 号 ， 又 调用 库 画 数 inet_pton 〈“ 呈 现形 式 到 数值 >) 去 把 
ASCII 命 令 行 参数 〈 例 如 运行 本 例子 所 用 的 206.168.112.96) 转换 为 合适 的 格 
À o 


bzero 不 是 一 个 ANSI CHAT © Ch T HA A Berkeley | 4&2 Eg f d o A 
过 我 们 在 整 本 书 中 使 用 它 而 不 用 ANSI C 的 memset 函 数 ， 因 为 bzero (52/1 
数 ) 比 memset ( 带 3 个 参数 ) 更 好 记忆 。 几 乎 所 有 支持 套 接 字 API 的 厂商 都 提 
供 bzero， 如 果 没 有 ， 那 么 可 以 使 用 unp.h 头 文件 中 提供 的 该 函数 的 宏 定义 。 
事实 上 ， 在 TCPv3 一 书 首次 印刷 时 ， 作 者 在 10 处 出 现 memset 函 数 的 地 方 
犯 了 错 ， 互 换 了 第 二 和 第 三 个 参数 。C 编 译 器 发 现 不 了 这 个 错误 ， 因 为 这 两 个 
参数 的 类 型 是 相同 的 。 (其 实 第 二 个 参数 是 int 类 型 ， 第 三 个 参数 是 size t， 通 
常 定 义 为 unsigned int 类 型 ， 然 而 分 别 指定 给 这 两 个 参数 的 值 为 Oo 和 16， 它 们 对 
于 两 个 参数 的 类 型 同样 可 以 接受 。) 对 memset 的 这 些 调用 仍然 正常 ， 不 过 没 
做 任何 事 ， 因 为 待 初始 化 的 字 蔬 数 被 指定 成 了 0。 程 序 之 所 以 仍然 工作 是 因为 
只 有 少数 套 接 字 函数 要 求 网 际 套 接 字 地 址 结构 的 最 后 8 个 字 节 置 0。 无论 如 
何 ， 这 确实 是 一 个 错误 ， 且 是 一 个 通过 使 用 bzero 芳 数 可 以 避免 的 错误 ， 因 为 
如 果 使 用 函数 原型 ，C 编 译 器 总 能 发 现 bzero 的 两 个 参数 被 互 换 的 错误 。 

此 处 也 许 是 你 第 一 次 遇 到 inet_pton 函 数 。 它 是 一 个 文 持 IPv6 ( 详 见 附录 
A) 的 新 函数 。 以 前 的 代码 使 用 inet_addr 函 数 来 把 ASCII 点 分 十 进 制 数 串 变换 
成 正确 的 格式 ， 不 过 它 有 不 少 局 限 ， 而 这 些 局 限 在 inet_pton 中 都 得 以 纠正 。 如 
果 你 的 系统 尚未 文 持 该 男 数 ， 那 你 可 以 使 用 我 们 在 3.7 市 中 提供 的 它 的 一 个 实 
现 。 

建立 与 服务 器 的 连接 

177-18 connect 函 数 应 用 于 一 个 TCP 套 接 字 时 ， 将 与 由 它 的 第 二 个 参数 指 
向 的 套 接 字 地 址 结构 指定 的 服务 器 建立 一 个 TCP 连 接 。 该 套 接 字 地 址 结构 的 长 
度 也 必须 作为 该 范 数 的 第 三 个 参数 指定 ， 对 于 网 际 套 接 字 地 址 结构 ， 我 们 总 
是 使 用 C 语 言 的 sizeof 操 作 符 由 编译 器 来 计算 这 个 长 度 。 

在 头 文件 unp.h 中 ， 我 们 使 用 #define 把 SA 定义 为 struct sockaddr， 也 就 是 通 
用 套 接 字 地 址 结构 。 每 当 一 个 套 接 字 函 数 需 要 一 个 指向 某 个 套 接 字 地 址 结构 
的 指针 时 ， 这 个 指针 必须 强制 类 型 转换 成 一 个 指向 通用 套 接 字 地 址 结构 的 指 
针 。 这 是 因为 套 接 字 函 数 早 于 ANSI C 标 准 ，20 世 纪 80 年 代 早期 开发 这 些 函 数 
IY, ANSI C 的 void * 指 针 类 型 还 不 可 用 。 问 题 是 “struct sockaddr” 长 达 15 个 字 
符 ， 往 往 造 成 源 代码 行 超出 屏幕 (或 者 书页 ， 若 是 排 印 在 书 上 ) 的 右边 缘 ， 


因此 我 们 把 它 缩减 成 SA。 我 们 将 在 解释 图 3-3 时 详细 讨论 通用 套 接 字 地 址 结 
构 。 

读 入 并 输出 服务 器 的 应 答 

1925 我 们 使 用 read 画 数 读 取 服务 器 的 应 答 ， 并 用 标准 的 VO 函数 fputs 输 
出 结果 。 [7] 使 用 TCP 时 必须 小 心 ， 因 为 TCP 是 一 个 没有 记录 边界 的 字 节 流 协 
议 。 服 务 器 的 应 答 通常 是 如 下 格式 的 26 字 节 字 符 串 ; 

Mon May 26 20:58:40 2003\r\n 

HT, wAEASCII[EIAE ff, WXEASCIBARTTAT ° HEA OMAN, 
这 26 个 字 节 可 以 有 多 种 返回 方式 : 既 可 以 是 包含 所 有 26 个 字 市 的 单个 TCP 分 市 
[8] ， 也 可 以 是 每 个 分 节 只 含 1 个 字 节 的 26 个 TCP 分 节 ， 还 可 以 是 总 共 26 个 字 节 
的 任何 其 他 组 合 。 通 常服 务 右 返回 包含 所 有 26 个 字 市 的 单个 分 节 ， 但 是 如 果 
数据 量 很 大 ， 我 们 束 不 能 确保 一 次 read 调 用 能 返回 服务 器 的 整个 应 答 。 因 此 从 
TCP 套 接 字 读 取 数据 时 ， 我 们 总 是 需要 把 read 编 写 在 某 个 循环 中 ， 当 read 返 回 0 

(表明 对 端 关 闭 连接 ) 或 负 值 (表明 发 生 错 误 ) 时 终止 循环 。 

本 例 中 ， 服 务 器 关闭 连接 表征 记录 的 结束 。HTTP (Hypertext Transfer 
Protocol， 超 文本 传送 协议 ) 的 1.0 版 本 也 采用 这 种 技术 。 还 可 以 用 其 他 技术 标 
记 记 录 结 束 。 例 如 ，SMTP (Simple Mail Transfer Protocol， 简 单 邮件 传送 协 
议 ) 使 用 由 ASCII 回 车 符 后 跟 换 行 符 构成 的 2 字 节 序列 标记 记录 的 结束 ; Sunt 
程 过 程 调 用 (Remote Procedure Call, RPC) 以 及 域名 系统 (Domain Name 
System, DNS) 在 使 用 TCP 承 载 应 用 数据 时 ， 在 每 个 要 发 送 的 记录 之 前 放置 一 
个 二 进 制 的 计数 值 ， 给 出 这 个 记录 的 长 度 。 这 里 的 重要 概念 是 TCP 本 号 并 不 提 
供 记 录 结 束 标志 : 如 果 应 用 程序 需要 确定 记录 的 边界 ， 它 就 要 自己 去 实现 ， 
已 有 一 些 常用 的 方法 可 供 选 择 。 

终止 程序 

26 exit 终 止 程序 运行 。Unix 在 一 个 进程 终止 时 总 是 关闭 该 进程 所 有 打开 的 
描述 符 ， 我 们 的 TCP 套 接 字 就 此 被 关闭 。 

刚才 已 提 过 ， 本 书后 面 会 对 刚才 讲述 的 所 有 概念 深入 进行 探讨 。 


1.3 协议 无 关 性 


av) 


图 1-5 中 的 程序 是 与 IPv4 协 议 相 关 的 : 我 们 分 配 并 初始 化 一 个 sockaddr_in 
类 型 的 结构 ， 把 该 结构 的 协议 族 成 员 设 置 为 AF_INET， 并 指定 socket 画 数 的 第 
一 个 参数 为 AF_INET。 

为 了 让 图 1-5 中 的 程序 能 够 在 IPv6 上 运行 ， 我 们 必须 修改 这 段 代 码 。 图 1-6 
所 示 的 是 一 个 能 够 在 IPv6 上 运行 的 版 本 ， 其 中 改动 之 处 用 加 粗 的 等 宽 字体 突 


出 显示 。 
intro/daytimetcpcliv6.c 
1 #include "unp.h" 
2 int 
3 main(int argc, char **argv) 
at 
5 int sockfd, n; 
6 char recvline[MAXLINE + 1]; 
7 struct sockaddr in6 servaddr; 
8 if (argc !- 2) 
9 err quit("usage: a.out «IPaddress»"); 
10 if ( (sockfd - socket(AF INET6, SOCK STREAM, 0)) « O) 
11 err sys ("socket error"); 
12 bzero(&servaddr, sizeof (servaddr)); 
13 servaddr.sin6 family = AF INET6; 
14 servaddr.sin6 port - htons(13); /* daytime server */ 
15 if (inet pton(AF INET6, argv[1], &servaddr.sin6 addr) <= 0) 
16 err quit("inet pton error for $s", argv[1]); 
17 if (connect(sockfd, (SA *) &servaddr, sizeof(servaddr)) « 0) 
18 err sys("connect error"); 
19 while ( (n = read(sockfd, recvline, MAXLINE)) > 0) ( 
20 recvline[n] = 0; /* null terminate */ 
27 if (fputs(recvline, stdout) == EOF) 
22 err_sys("fputs error") ; 
23 } 
24 TE (m0) 
25 err sys("read error"); 
26 exit(0); 
27 ) 


intro/daytimetcpcliv6.c 


图 1-6 适合 于 IPv6 的 图 1-5 所 示 程 序 的 修改 版 


我 们 只 修改 了 程序 的 5 行 代码 ， 得 到 的 却 是 男 一 个 与 协议 相关 的 程序 : 这 
回 是 与 IPv6 协 议 相 关 的 。 更 好 的 做 法 是 编写 协议 无 关 的 程序 。 图 11-11 将 给 出 
本 客户 程序 的 协议 无 关 版 本 ， 它 使 用 了 getaddrinfo 函 数 〈 由 tcp_connect 函 数 调 


H) + 


这 两 个 程序 的 另 一 个 不 足 之 处 是 : 用户 必须 以 点 分 十 进 制 数 格式 给 出 服 
务 器 的 IP 地 址 〈 如 适合 于 IPv4 版 本 的 206.168.112.219) 。 人 们 更 习惯 于 用 名 字 
(如 www.unpbook.com) 来 代替 数字 。 我 们 将 在 第 11 章 中 讨论 主机 名 与 IP 地 址 
之 间 以 及 服务 名 与 端口 之 间 的 转换 函数 。 我 们 特意 推迟 讨论 这 些 函 数 ， 在 第 
11 章 之 前 继续 使 用 IP 地 址 和 端口 号 ， 目 的 是 了 解 我 们 必须 填写 和 查看 的 套 接 字 
地 址 结构 的 细 季 ， 避 免 被 另 一 个 函数 集 的 细 把 网 络 编程 的 讨论 搞 复 杂 了 。 


1.4 错 误 处 理 ; ARR 


TS RATE FAIRE TN ROH FH X X BR > TE E 1-5 PT 
TRE FEE, FR] Ésocket ` inet pton > connect > readÆllfputs KEN FR [n] 
FER, AREA, MAHARI] À C'AVerr_quitekerr_sys EN aH HT h £8 
消息 并 终止 程序 的 运行 。 我 们 发 现 绝 大 多 数 情 况 下 这 正 是 我 们 想 做 的 事 。 个 
别 情况 下 ， 当 这 些 函 数 返回 错误 时 ， 我 们 想 做 的 事 并 非 简 单 地 终止 程序 的 运 
行 ， 如 图 5-12 所 示 ， 我 们 必须 检查 系统 调用 是 否 被 中 断 了 。 

既然 发 生 错误 时 终止 程序 的 运行 是 普 明 的 情况 ， 我 们 可 以 通过 定义 包 豆 
函数 (wrapper function) 来 缩短 程序 。 每 个 包 于 函数 完成 实际 的 函数 调用 ， 检 
得 返回 值 ， 并 在 发 生 错误 时 终止 进程 。 我 们 约定 包 囊 函数 名 是 实际 函数 名 的 
首 字 母 大 写 形式 。 例 如 ， 在 语句 

sockfd = Socket(AF INET, SOCK_STREAM, 0); 

中 ， 函 数 Socket 是 函数 socket 的 包 庄 函数 ， 如 图 1-7 所 示 。 


lib/wrapsock.c 
236 int 
237 Socket (int family, int type, int protocol) 
238 { 
239 int n; 
240 if ( (n = socket (family, type, protocol)) « 0) 
241 err_sys ("socket error"); 
242 return (n); 
243 } 
lib/wrapsock.c 


图 1-7 socket KUH TEILEN EU 
在 本 书 中 只 要 你 遇 到 一 个 首 字母 大 写 的 函数 名 ， 它 就 是 我 们 定义 的 某 个 
包 囊 函数 。 它 调用 的 实际 函数 的 名 字 与 包 训 函 数 名 相同 ， 不 过 以 对 应 的 小 写 


字母 开头 。 

然而 在 讲解 本 书 中 提供 的 源 代码 上 时， 我 们 总 是 指称 被 调用 的 最 低级 别 的 
函数 (如 socket) ， 而 不 是 包 于 函数 (如 Socket) 。 

这 些 包 焉 函数 不 见得 多 节省 代码 量 ， 但 当 我 们 在 第 26 划 中 讨论 线程 时 ， 
将 会 发 现 线程 函数 遇 到 错误 时 并 不 设置 标准 Unix 的 errmno 变 量 ， 而 是 把 errno 的 
值 作为 函数 返回 值 返回 调用 者 。 这 意味 着 每 次 调用 以 pthread_ 开 头 的 某 个 函数 
时 ， 我 们 必须 分 配 一 个 变量 来 存放 函数 返回 值 ， 以 便 在 调用 err_sys 前 把 errno 
变量 设置 成 该 值 。 为 避免 引入 花 括号 把 代码 弄 得 很 混乱 ， 我 们 可 以 使 用 C 语 言 
的 逗号 操作 符 ， 把 ermo 的 赋值 与 err_sys 的 调用 组 合成 一 条 语句 ， 如 下 所 示 : 


int n; 


if ( (n = pthread mutex lock(&ndone mutex)) != 0) 
errno = n, err sys("pthread mutex lock error"); 

我 们 也 可 以 为 此 定义 一 个 新 的 错误 处 理 函 数 ， 它 取 系 统 的 错误 号 作为 一 
个 参数 ， 不 过 通过 定义 如 图 1-8 所 示 的 包 右 函数 ， 我 们 可 以 让 以 上 这 段 代 码 更 
为 易 读 : 

Pthread_mutex_lock(&ndone_mutex); 

PAE ACE, AMA AZAR, Nés 
ESTE TESEI A E 
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方法 也 考虑 过 ， 壁 如 给 函数 名 加 一 个 “e” 前 级 (如 [Kernighan and Pike 1984] 
一 书 第 182 页 所 示 ) ， 给 函数 名 加 一 个 “_e” 后 级 ， 等 等 。 这 些 方法 都 能 明显 地 
提示 调用 了 其 他 函数 ， 但 我 们 的 这 种 风格 看 来 是 最 少 分 散 注 意 力 的 。 

这 种 技术 还 有 助 于 检查 那些 错误 返回 值 通常 被 忽略 的 函数 是 否 出 钳 ， 例 
如 close 和 listen ° 


lib/wrappthread.c 
72 void 

73 Pthread mutex lock(pthread mutex t *mptr) 

74 ( 


75 int n; 

76 if ( (n = pthread mutex lock(mptr)) == 0) 
77 return; 

78 errno = n; 

79 err sys("pthread mutex lock error"); 


80 ) 
lib/wrappthread.c 


图 1-8 pthread_mutex_lockAJ £2 EX EU 


本 书后 面 的 例子 中 ， 除 非 必须 检查 某 个 确定 的 错误 是 否 发 生 ， 并 以 不 同 
于 终止 进程 的 其 他 某 种 方式 处 理 它 ， 否 则 束 使 用 这 些 包 襄 画 数 。 书 中 不 提供 
所 有 包 于 函数 的 源 代码 ， 不 过 它们 是 可 以 免费 获得 的 (HE) 。 

Unix errno 值 

AB—TUnixH MUETERTRU 中 有 错误 发 生 ， 全 局 变量 

uno 就 被 置 为 一 个 指 明 该 错误 类 型 的 正 值 ， 函 数 本 号 则 通常 返回 -1。err_sys 查 
看 erro 变 量 的 值 并 输出 相应 的 出 错 消 息 ， 例 如 当 errno 值 等 于 ETIMEDOUT 
上 时， 将 输出 “Connection timed out”( 连 接 超时 ) 。 

errno 的 值 只 在 函数 发 生 错 误 时 设置 。 如 采 辑 数 不 返 回 错误 ，ermo 的 值 束 
没有 定义 。ermo 的 所 有 正 数 错 误 值 都 是 常 值 ， 具 有 以 “E” 开 头 的 全 大 写字 母 名 
字 ， 并 通常 在 <sys/errno.h> 头 文件 中 定义 。 值 0 不 表示 任何 错误 。 

在 全 局 变量 中 存放 errno 值 对 于 共享 所 有 全 局 变量 的 多 个 线程 并 不 适合 。 
我 们 将 在 第 26 章 中 讲述 解决 这 一 问题 的 方法 。 

全 书 中 我 们 将 使 用 诸如 “connect 范 数 返 回 ECONNREFUSED” 这 样 的 句子 
简明 表达 以 下 意思 : 该 函数 返回 一 个 错误 (通常 函数 返回 值 为 -1) ， 同 时 
errno 被 置 为 指定 的 常 值 。 


1.5 一 个 简单 的 时 间 获 取 服 务 器 程序 


我 们 可 以 编写 一 个 简单 的 TCP 时 间 获 取 服 务 器 程序 ， 它 和 1.2 节 中 的 客户 
程序 一 道 工作 。 图 1-9 给 出 了 这 个 服务 器 程序 ， 它 使 用 了 上 一 节 中 讲 过 的 包 误 
PRAY o 

创建 TCP 套 接 字 


10 TCP 套 接 字 的 创建 与 客户 程序 相同 。 

把 服务 器 的 众所周知 端口 捆绑 到 套 接 字 

117-15 通过 填写 一 个 网 际 套 接 字 地 址 结构 并 调用 bind 画 数 ， 服 务 器 的 众 
所 周知 端口 (对 于 时 间 获 取 服 务 是 13) 被 捆绑 到 所 创建 的 套 接 字 。 我 们 指定 
IP 地 址 为 INADDR_ANY， 这 样 要 是 服务 器 主机 有 多 个 网 络 接口 ， 服 务 器 进程 
就 可 以 在 任意 网 络 接 口上 接受 客户 连接 。 

以 后 我 们 将 了 解 怎 样 限定 服务 器 进程 只 在 单个 网 络 接口 上 接受 客户 连 


Bt o 


intro/daytimetcpsrv.c 


1 #include "unp.h" 

2 #include «time.h» 

3 int 

4 main(int argc, char **argv) 
5 { 


6 int listenfd, connfd; 

7 struct sockaddr in servaddr; 
8 char buff [MAXLINE] ; 

9 time t ticks; 


10 listenfd = Socket (AF INET, SOCK STREAM, 0); 

TIL bzero(&servaddr, sizeof (servaddr)); 

12 servaddr.sin family - AF INET; 

13 servaddr.sin addr.s addr - htonl(INADDR ANY); 

14 servaddr.sin port = htons(13); /* daytime server */ 
15 Bind(listenfd, (SA *) &servaddr, sizeof (servaddr)); 
16 Listen(listenfd, LISTENQ); 

17 for (7:24 

18 connfd - Accept(listenfd, (SA *) NULL, NULL); 

19 ticks = time (NULL); 

20 snprintf (buff, sizeof(buff), "%.24s\r\n", ctime(&ticks)); 
21; Write(connfd, buff, strlen(buff)); 

22 Close (connfd); 

23 ) 

24 } 


intro/daytimetcpsrv.c 


图 1-9 TCP 时 间 获 取 服 务 器 程序 

把 套 接 字 转换 成 监听 套 接 字 

16 调用 1listen 函 数 把 该 套 接 字 转换 成 一 个 监听 套 接 字 ， 这 样 来 自 客户 的 外 
来 连接 就 可 在 该 套 接 字 上 由 内 核 接 受 。socket、bind 和 listen 这 3 个 调用 步骤 是 


E fi] TCP ARS VE & A dH AY Uu UT XT (listening descriptor, Æ fil] FA 
listenfd) HIE IIR » 

常 值 LISTENQ 在 我 们 的 unp.h 头 文件 中 定义 。 它 指定 系统 内 核 允许 在 这 个 
监听 描述 符 上 排队 的 最 大 客户 连接 数 。 我 们 将 在 4.5 节 详细 说 明 客 户 连 接 的 排 
队 o 

接受 客户 连接 ， 发 送 应 答 

17-21 通常 情况 下 ， 服 务 器 进程 在 accept 调 用 中 被 投入 睡眠 ， 等 待 某 个 客 
户 连 接 的 到 达 并 被 内 核 接 受 。TCP 连 接 使 用 所 谓 的 三 路 握手 (three-way 
handshake) 来 建立 连接 。 握 手 完 毕 时 accept 返 回 ， 其 返回 值 是 一 个 称 为 已 连接 
描述 符 (connected descriptor) 的 新 描述 符 (本 例 中 为 connfd) 。 该 描述 符 用 
于 与 新 近 连 接 的 那个 客户 通信 。accept 为 每 个 连接 到 本 服务 器 的 客户 返回 一 个 
新 描述 符 。 

本 书 全 文采 用 的 无 限 循环 采用 以 下 风格 : 

for(;;)t 


} 

当前 时 间 和 日 期 是 由 库 函 数 time 返 回 的 ， 它 实际 上 返回 的 是 自 Unix 纪 元 即 
1970 年 1 月 1 日 0 点 0 分 0 秒 (国际 标准 时 间 ) 以 来 的 秒 数 。 下 一 个 库 函 数 ctime 把 
该 整数 值 转换 成 直观 可 读 的 时 间 格 式 ， 例 如 : 

Mon May 26 20:58:40 2003 

snprintf 函 数 在 这 个 字符 串 末 尾 添 加 一 个 回 车 符 和 一 个 回 行 符 ， 随 后 write 
函数 把 结果 字符 串 写 给 客户 。 

如 果 你 尚 不 习惯 改 用 snprintf 代 替 较 早 的 sprintf 函 数 ， 那 么 现在 是 学 习 的 时 
候 了 。 调 用 sprintf 无 法 检查 目的 缓冲 区 是 否 洪 出 。 相 反 ，snprintf 要 求 其 第 二 个 
参数 指定 目的 缓冲 区 的 大 小 ， 因 此 可 确保 该 缓冲 区 不 洲 出 。 

snprintf 相 对 较 晚 才 加 到 ANSI C 标 准 中 ， 在 称 为 ISO C99 的 版 本 中 引入 。 
不 过 几乎 所 有 厂商 都 把 它 作 为 标准 C 函 数 库 的 一 部 分 提供 ， 而 且 男 有 许多 人 免费 
可 得 的 版 本 可 用 。 我 们 贯穿 全 书 使 用 snprintf， 也 推荐 你 出 于 可 靠 性 考虑 在 自 
CHEY FAA ERR Ë sprintf ° 


值得 注意 的 是 ， 许 多 网 络 入 侵 是 由 黑客 通过 发 送 数据 ， 导 致 服务 器 对 
sprintf 的 调用 使 其 缓冲 区 湾 出 而 发 生 的 。 必 须 小 心 使 用 的 函数 还 有 gets、strcat 
和 strcpy， 通 党 应 分 别 改 为 调用 fgets、strncat 和 strncpy。 更 好 的 替代 函数 是 后 
来 才 引 入 的 strlcat 和 strlcpy， 它 们 确保 结果 是 正确 终止 的 字符 串 。 编 写 安全 的 
网 络 程序 的 更 多 技巧 参见 [Garfinkel, Schwartz, and Spafford 2003] 的 第 23 
Ho 

终止 连接 

22 服务 器 通过 调用 close 关 闭 与 客户 的 连接 。 该 调用 引发 正常 的 TCP 连 接 
终止 序列 : 每 个 方向 上 发 送 一 个 FIN， 每 个 FIN 又 由 各 目的 对 端 确认 。2.6 节 将 
详细 讲述 TCP 的 三 路 握手 和 用 于 终止 一 个 TCP 连 接 的 4 个 TCP 分 组 。 

与 上 市 查看 客户 程序 一 样 ， 本 市 查看 服务 器 程序 也 非常 简略 ， 具 体 细 市 
留待 本 书 以 后 论述 。 有 以 下 几 点 需要 注意 。 

与 其 客户 程序 一 样 ， 这 一 服务 器 程序 也 与 IPv4 协 议 相 关 。 我 们 将 在 图 11- 
13 中 给 出 使 用 getaddrinfo 函 数 实现 的 一 个 协议 无 关 的 版 本 。 

本 服务 器 一 次 只 能 处 理 一 个 客户 。 如 果 多 个 客户 连接 差不多 同时 到 达 ， 
系统 内 核 在 某 个 最 大 数目 的 限制 下 把 它们 排 入 队列 ， 然 后 每 次 返回 一 个 给 
accept 函 数 。 本 服务 器 只 需 调 用 time 和 ctime 这 两 个 库 画 数 ， 运 行 速度 很 快 。 然 
而 如 采 服 务 器 需 用 较 多 时 间 ( 壁 如 说 几 秒 钟 或 一 分 钟 ) 服务 每 个 客户 ， 那 么 
我 们 必须 以 某 种 方式 重 共 对 各 个 客户 的 服务 。 

图 1-9 中 所 示 的 服务 器 称 为 迭代 服务 器 (iterative server) ， 因 为 对 于 每 个 
客户 它 都 迭代 执行 一 次 。 同 时 能 处 理 多 个 客户 的 并 发 服务 器 (concurrent 
server) 有 多 种 编写 技术 。 最 简单 的 技术 是 调用 Unix 的 fork 函 数 (4.777) , A 
每 个 客户 创建 一 个 子 进程 。 其 他 技术 包括 使 用 线程 代替 fork (26.4 节 ) ， 或 在 
服务 器 启动 时 预先 fork 一 定数 量 的 子 进程 (30.67) e 

如 果 从 shell 命 令 行 启 动 本 例 这 样 的 一 个 服务 器 ， 我 们 也 许 想 要 它 运 行 很 
长 时 间 ， 因 为 服务 器 往往 在 系统 工作 期 间 一 直 运 行 。 这 要 求 我 们 往 服 务 器 程 
序 中 添加 代码 ， 以 便 它 能 够 作为 一 个 Unix 守 护 进 程 (daemon) 能 在 后 台 
运行 且 不 跟 任 何 终端 关联 的 进程 一 一 运行 。 我 们 将 在 13.4 节 讨论 守护 进程 。 


1.6 本 书 中 客户 /服务 器 程序 示例 索引 表 


贯穿 全 书 的 用 于 阐述 网 络 编程 中 使 用 的 各 种 技术 的 两 个 客户 /服务 器 程序 
示例 如 下 : 

时 间 获 取 客 户 /服务 器 程序 (开始 于 图 1-5、 图 1-6 和 图 1-9) ; 

回 射 客户 /服务 器 程序 (开始 于 第 5 章 ) 。 

为 了 提供 本 书 所 涵盖 不 同 主题 的 路 线 图 ， 我 们 用 下 面 4 个 表格 汇总 了 将 要 
开发 的 程序 ， 并 给 出 了 它们 的 源 代码 所 在 的 起 始 图 号 。 图 1-10 列 出 了 本 书 开 发 
的 时 间 获 取 客 户 程序 的 不 同 版 本 ， 其 中 有 两 个 版 本 前 面 已 讲 过 。 图 1-11 列 出 了 
时 间 获 取 服 务 器 程序 的 不 同 版 本 。 图 1-12 列 出 了 回 射 客户 程序 的 不 同 版 本 ， 
1-13 列 出 了 回 射 服务 器 程序 的 不 同 版 本 。 


TCP/IPv4， 协 议 相 关 

TCP/IPv6， 协 议 相 关 

TCP/IPv4， 协 议 相 关 ， 调 用 gethostbyname 和 getservbyname 
TCP， 协 议 无 关 ， 调 用 getaddrinfo 和 tcp connect 

UDP， 协 议 无 关 ， 调 用 getaddrinfo 和 udp client 


TCP， 使 用 非 阻塞 connect 
TCP， 协 议 相 关 ， 用 TPI 取 代 套 接 字 
， 协 议 相 关 ， 产 生 sIGPIPE 
， 协 议 相 关 ， 输 出 套 接 字 接收 缓冲 区 的 大 小 和 MSS 
， 协 议 相 关 ， 人 允许 主机 名 (gethostbyname) 或 者 IP 地 址 
， 协 议 无 关 ， 人 允许 主机 名 (gethostbyname) 


图 1-10 本 书 开发 的 时 间 获 取 客 户 程序 的 不 同 版 本 


TCP/IPv4， 协 议 相关 
TCP， 协 议 无 关 ， 调 用 getaddrinfo 和 tcp_listen 


TCP， 协 议 无 关 ， 调 用 getaddrinfo 和 tcp_listen 
UDP, WEK, iHgetaddrinfoflludp server 
TCP， 协 议 无 关 ， 作 为 孤立 的 守护 进程 运行 

TCP， 协 议 无 关 ， 从 ineta 守 护 进程 派生 


图 1-11 本 书 开发 的 时 间 获 取 服 务 器 程序 的 不 同 版 本 


TCP/IPv4， 协 议 相 关 

TCP， 使 用 select 

TCP， 使 用 select 并 操纵 缓冲 区 
UDP/IPv4， 协 议 相 关 

UDP， 验 证 服务 器 的 地 址 


UDP， 调 用 connect 获 取 异 步 错 误 

UDP， 使 用 sIGALRM 信 号 在 读 服务 器 的 应 答 时 启动 超时 

UDP， 使 用 select 函 数 在 读 服 务 器 的 应 答 时 启动 超时 

UDP， 使 用 so_RcvTIMEo 套 接 字 选项 在 读 服 务 器 的 应 答 时 局 动 超时 
Unix 域 字 节 流 ， 协 议 相 关 

Unix 域 数据 报 ， 协 议 相 关 


图 1-12 本 书 开发 的 回 射 客户 程序 的 不 同 版 本 


TCP, (FH AEBAZEI/O 

TCP， 使 用 两 个 进程 (fork) 

TCP， 建 立 连 接 ， 然 后 发 送 RST 

TCP， 使 用 /aev/poel1 达 成 多 路 复 用 

TCP， 使 用 kqueue 达 成 多 路 复 用 

UDP， 具 有 竞争 状态 的 广播 

UDP， 具 有 竞争 状态 的 广播 

UDP， 通 过 使 用 pselect 消 除了 竞争 状态 的 广播 

UDP， 通过 使 用 sigsetjmp 和 siglongjmp 消 除了 竞争 状态 的 广播 
UDP， 通 过 在 信号 处 理 函 数 中 使 用 IPC 消 除了 竞争 状态 的 广播 
UDP， 使 用 超时 、 重 传 和 序列 号 实现 可 靠 性 

(第 2 版 ) UDP， 使 用 带 外 数据 对 服务 器 心 搏 测试 ” 

TCP， 使 用 两 个 线程 

TCP/IPv4， 指 定 一 条 源 路 径 

UDP/IPv6， 指 定 一 条 源 路 径 


图 1-12 ( 


Non 


) 


TCP/IPv4, 
TCP/IPv4, 
TCP/IPv4, 
TCP/IPv4, 
UDP/IPv4, 


协议 相关 


协议 相关 ， 使 用 pol1， 
协议 相关 


协议 相关 ， 收 拾 终止 了 的 子 进程 
协议 相关 ， 使 用 select， 


单个 进程 处 理 所 有 客户 
单个 进程 处 理 所 有 客户 


TCP 和 UDP/IPv4， 协 议 相 关 ， 使 用 select 


TCP， 使 用 标准 WO 函数 库 
Unix 域 字 节 流 ， 协 议 相关 
Unix 域 数据 报 ， 协 议 相关 
Unix 域 字 节 流 ， 
UDP， 
UDP， 
UDP， 
TCP， 
TCP, 


捆绑 所 有 接口 地 址 
使 用 信号 驱动 的 IO 
每 个 客户 一 个 线程 
每 个 客户 一 个 线程 ， 


HR 


A 


1.7 OSI 模型 


带 有 从 客户 端 传递 凭证 
接收 目的 地 址 和 收取 接口 信息 ， 截 取 数 据 报 


可 移植 的 参数 传递 
TCP/IPv4， 输 出 接收 到 的 源 路 径 
UDP/IPv6， 输 出 并 反 转 接收 到 的 源 路 径 
UDP， 使 用 icmpa 接 收 异步 
UDP， 捆 绑 所 有 接口 地 址 


1-13 本 书 开发 的 回身 服务 器 程序 的 不 同 版 本 


描述 


(International Organization for Standardization, 


EJE (open systems interconnection, OSI) 模型 。 这 是 一 个 七 层 模 型 ， 


一 个 网 络 中 各 个 协议 层 的 常用 方法 是 使 用 国际 标准 化 组 织 


ISO) 的 计算 机 通信 开放 系统 
如 图 1- 


14 所 示 。 图 中 同时 给 出 了 它 与 网 际 协议 族 的 近似 映射 。 


应 用 层 细节 


用 户 进程 


a ERF 
XTI 


通信 细节 
设备 驱动 
程序 和 硬件 


物理 层 


OSI 模 型 网 际 网 协议 族 
图 1-14 OSI 模 型 和 网 际 协议 族 中 的 各 层 

A M dd T 
通常 情况 下 ， 除 需 知 道 数据 链 路 的 某 些 特性 外 CE 2.11 7160815005 
以 太 网 的 MTU 大 小 ) ， 我 们 不 必 关 心 这 两 层 的 具体 情况 。 

网 络 层 由 IPv4 和 IPv6 这 两 个 协议 处 理 ， 我 们 将 在 附录 A 中 讲述 它们 。 可 以 
选择 的 传输 层 有 TCP 或 UDP ， 我 们 将 在 第 2 章 中 讲述 它们 。 图 1-14 中 TCP 与 
UDP 之 间 留 有 间 院 ， 表 明 网 络 应 用 绕 过 传输 层 直接 使 用 IPv4 或 IPv6 是 可 能 的 。 
这 就 是 所 谓 的 原始 套 接 字 (raw socket) ， 我 们 将 在 第 28 章 中 讨论 。 

OSI 模 型 的 顶 上 三 层 被 合并 成 一 层 ， 称 为 应 用 层 。 这 就 是 Web 客 户 QUE 
at) 、Telnet 客 户 、Web 服 务 器 、FTP 服 务 器 和 其 他 我 们 在 使 用 的 网 络 应 用 所 
在 的 层 。 对 于 网 际 协议 ，OSI 模 型 的 顶 上 三 层 协 议 几 乎 没有 区 别 。 

本 书 讲述 的 套 接 字 编程 接口 是 从 顶 上 三 层 (网 际 协议 的 应 用 层 ) 进入 传 
输 层 的 接口 。 本 书 的 焦点 是 :如 何 使 用 套 接 字 编 写 使 用 TCP 或 UDP 的 网 络 应 用 
程序 。 我 们 已 提 到 原始 套 接 字 ， 在 第 29 章 中 我 们 将 看 到 ， 甚 至 可 以 彻底 绕 过 
IP 层 直接 读 写 数据 链 路 层 的 帧 。 

为 什么 套 接 字 提 供 的 是 从 OSI 模型 的 顶 上 三 层 进 入 传输 层 的 接口 ? 这 样 设 
计 有 两 个 理由 ， 如 图 1-14 右 侧 所 注 。 理 由 之 一 是 顶 上 三 层 处 理 具体 网 络 应 用 
(如 FTP、Telnet 或 HTTP) 的 所 有 细节 ， | ze 
具体 网 络 应 用 了 解 不 多 ， 却 处 理 所 有 的 通信 细节 : 发 送 数据 ， 等 待 确认 ， 给 


无 序 到 达 的 数据 排序 ， 计 算 并 验证 校 验 和 ， 等 等 。 理 由 之 二 是 顶 上 三 层 通常 
构成 所 谓 的 用 户 进程 (user process) ， 底 下 四 层 却 通常 作为 操作 系统 内 核 的 
一 部 分 提供 。Unix 与 其 他 现代 操作 系统 都 提供 分 隔 用 户 进 程 与 内 核 的 机 制 。 
由 此 可 见 ， 第 4 层 和 第 5 层 之 间 的 接口 是 构建 API 的 自然 位 置 。 


1.8 BSD 网 络 支 持 历史 


套 接 字 API 起 源 于 1983 年 发 行 的 4.2BSD 操 作 系统 。 图 1-15 展 示 了 各 种 BSD 
发 行 版 本 的 发 展 史 ， 并 注 明 了 TCP/IP 的 主要 发 展 历 程 。1990 年 面世 的 4.3BSD 
Reno 发 行 版 本 随 着 OSI 协 议 进 入 BSD 内 核 而 对 套 接 字 API 做 了 少量 的 改动 。 


4.2BSD (19834) 
第 一 个 广泛 可 用 的 TCP/IP 
和 套 接 字 API 版 本 


| 


4.3BSD (19864) 
改善 了 TCP 性 能 


4.3BSD Tahoe (1988 年 ) 


慢 启动 ， 拥 塞 避免 
—— 快速 重 传 


BSD Networking Software 
1.0) (19894E) : Net/1 


4.3BSD Beno (1990 年 ) 
快速 恢复 ，TCP 首 部 预测 ， 


- SLIP 首 部 压缩 ， 路 由 表 修 改 ; 
sockaddr{ } 中 添加 长 度 字段 ， 
msghdr ( } 中 添加 控制 信息 
BSD Networking Software 
2.0} (199145) : Net/2 | 


4.4BSD (1993 年 ) 
— citi 多 播 ， 长 胖 管 道 改 进 


4.4BSD-Lite (19941) 


正文 中 称 为 Net/3 BSD/OS 
FreeBSD 
| NetBSD 
OpenBSD 


4.4BSD-Lite2 (1995 年 ) 


图 1-15 各 种 BSD 版 本 的 历史 

图 1-15 中 从 4.2BSD 往 下 到 4.4BSD 的 通路 展示 了 源 目 Berkeley 计 算 机 系统 研 

究 组 (Computer Systems Research Group, CSRG) 的 各 个 版 本 ， 它 们 要 求 获 
取 者 已 拥有 Unix 的 源 代 码 许 可 权 。 然 而 其 中 的 所 有 网 络 支 持 代 码 ， 不 论 是 

核 支 持 (如 TCP/IP 协 议 栈 、Unix 域 协议 栈 及 套 接 字 API) 还 是 应 用 程序 (如 

Telnet 和 FTP 客 户 和 服务 器 程序 ) 都 是 独立 于 源 自 AT&T 的 Unix 代 码 开发 的 。 因 


此 从 1989 年 起 ，Berkeley 开 始 提 供 第 一 个 BSD 网 络 支持 版 本 ， 它 包含 所 有 的 网 
络 支 持 代 码 以 及 不 受 Unix 源 代码 许可 权 约 束 的 其 他 各 种 BSD 系 统 软件 。 这 些 
包含 网 络 支 持 代码 的 版 本 是 可 公开 获取 的 ， 最 终 因特网 上 任何 人 都 可 通过 匿 
名 FTP 获 取 。 

源 目 Berkeley 的 最 终 版 本 是 1994 年 的 4.4BSD-Lite 和 1995 年 的 4.4BSD- 
Lite2。 我 们 指出 这 两 个 版 本 是 其 他 多 个 系统 (包括 BSD/OS ` FreeBSD ^ 
NetBSD 和 OpenBSD) 的 基础 ， 这 些 系统 大 多 数 仍然 处 于 活跃 的 开发 和 完善 之 
中 。 有 关 各 种 BSD 版 本 和 各 种 Unix 系 统 历史 的 详情 参见 | Mckusick et 
al.1996] 的 第 1 章 。 

许多 Unix 系 统 从 某 个 版 本 的 BSD 网 络 文 持 代码 (包括 套 接 字 API) 开始 提 
供 网 络 支持 ， 我 们 称 这 些 实现 为 源 自 Berkeley 的 实现 ( Berkeley-derived 
implementation) 。 许 多 商业 版 本 的 Unix 是 基于 System V 版 本 4 (System V 
Release 4, SVRA) 的 ， 其 中 有 一 些 系 统 使 用 源 自 Berkeley 的 网 络 支 持 代 码 
(如 UnixWare 2.x) ， 其 他 SVR4 系 统 的 网 络 支 持 代 码 却 是 独立 起 源 的 (如 
Solaris 2.x) 。 我 们 还 要 注意 ，Linux 这 种 流行 的 可 免费 获得 的 Unix 实 现 并 不 适 
合 归属 源 自 Berkeley 的 系列 ， 因 为 它 的 网 络 支持 代码 和 套 接 字 API 都 是 从 头 开 
台 开 发 的 。 


1.9 测试 用 网 络 及 主机 


图 1-16 展 示 了 本 书 示例 所 用 的 各 个 网 络 和 主机 。 对 于 每 个 主机 ， 我 们 都 标 
出 了 它 的 操作 系统 和 硬件 类 型 (因为 有 些 操作 系统 可 运行 在 不 止 一 种 硬件 
E) 。 各 个 框 内 的 名 字 就 是 出 现在 本 书 中 的 各 个 主机 名 。 
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| 
1 
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图 1-16 本 书 示 例 所 用 的 网 络 和 主机 


图 1-16 所 示 的 拓扑 适合 本 书 的 例子 ， 不 过 机 器 大 范围 地 散布 在 因特网 上 ， 
物理 拓扑 实际 上 变 得 不 太 重 要 。 事 实 上 虚拟 专用 网 络 (virtual private 
network, VPN) 或 安全 shell (secure shell, SSH) 连接 提供 这 些 机 器 之 间 的 
连通 性 ， 而 无 需 顾 及 这 些 主机 的 物理 位 置 。 

图 中 “24”( 和 /64) 指出 从 地 址 的 最 左 位 开始 用 于 标识 网 络 和 子 网 的 连续 
位 数 。A.4 节 将 说 明 现今 用 于 指定 子 网 边界 的 /n 记 法 。 

Sun 操 作 系 统 的 真实 名 字 是 SunOS 5.x， 而 不 是 Solaris 2.x， 但 是 大 家 习惯 
称 它 为 Solaris， 实 际 上 这 是 操作 系统 和 与 之 捆绑 的 其 他 软件 的 合 称 。 

网 络 拓扑 的 发 现 

图 1-16 展 示 了 本 书 的 全 部 示例 所 用 主机 的 网 络 拓扑 ， 但 是 为 了 在 你 自己 的 
网 络 上 运行 这 些 例子 和 完成 习题 ， 你 可 能 需要 了 解 自己 的 网 络 拓扑 。 尺 管 目 
前 还 没有 关于 网 络 配置 和 管理 的 现行 Unix 标 准 ， 但 大 多 数 Unix 系 统 都 提供 了 
可 用 于 发 现 某 些 网 络 细节 的 两 个 基本 命令 : netstat 和 ifconfig。 通 过 阅读 所 用 系 
统 上 这 些 命令 的 手册 页 面 [9] ， 你 可 以 获悉 有 关 它 们 的 输出 信息 的 详情 。 要 留 
意 的 是 ， 有 些 厂商 把 这 些 命令 存放 在 诸如 /sbin 或 /usr/sbin 这 样 的 管理 目录 中 ， 
而 不 是 通常 的 /usr/bin 目 录 ， 而 这 些 管 理 目录 可 能 不 在 通常 的 shell 搜 索 路 径 中 

(由 PATH 环境 变量 指定 ) 。 


(1) netstat -i 提供 网 络 接 口 的 信息 。 我 们 还 指定 -n 标 志 以 输出 数值 地 址 ， 而 
不 是 试图 把 它们 反 向 解析 成 名 字 。 下 面 的 例子 给 出 了 接口 及 其 名 字 和 统计 信 


un: 


linux % netstat -ni 

Kernel Interface table 

Iface MTU Met RX-OK RX-ERR RX-DRP RX-OVR TX-OK TX- 
ERR TX-DRP TX-OVR Flg 


ethO 1500 049211085 0 0 040540958 0 
0 0 BMRU 

lo 16436 098613572 0 0 098613572 0 
0 0 LRU 


其 中 环 回 (loopback) 接口 称 为 0， 以 太 网 接口 称 为 eth0。 下 面 的 例子 给 
出 了 支持 IPv6 的 一 个 主机 的 类 似 信息 : 


freebsd % netstat -ni 


Name Mtu Network Address Ipkts Ierrs 
Opkts Oerrs Coll 

hme0 1500 <Link#1> 08:00:20:a7:68:6b 29100435 35 
46561488 0 0 

hme0 1500 12.106.32/24 12.106.32.254 28746630 - 
46617260 - - 


hmeO 1500 fe80:1::a00:20ff:fea7:686b/64 
fe80:1::a00:20ff:fea7:686b 


0 - 0 

hme0 1500 3ffe:b80:1f8d:1::1/64 
3ffe:b80:1f8d:1::1 0 - 0 
hmel 1500 <Link#2> 08:00:20:a7:68:6b 51092 0 


31537 0 0 


hmel 1500 fe80:2::a00:20ff:fea7:686b/64 
fe80:2::a00:20ff:fea7:686b 


0 - 90 
hmel 1500 192.168.42 192.168.42.1 43584 - 
24173 - - 
hme1 1500 3ffe:b80:1f8d:2::1/64 
3ffe:b80:1f8d:2::1 78 - 8 
lo0 16384 <Link#6> 10198 0 
10198 0 0 
loO 16384 ::1/128 “1 10 - 
10 - - 
lo0 16384 fe80:6::1/64 fe80:6::1 0 - 
0 L S 
lo0 16384 127 127.0.0.1 10167 - 
10167 - - 
gif0 1280 <Link#8> 6 0 
5 0 0 
gifü 1280 3ffe:b80:3:9ad1::2/128 
3ffe:b80:3:9ad1::2 0 - 0 


gifo 1280 fe80:8::a00:20ff:fea7:686b/64 
fe80:8::a00:20ff:fea7:686b 
0 - 0 


注意 : 为 了 对 齐 输出 字段 ， 我 们 对 较 长 的 代码 行 做 了 回 行 处 理 。 
(2) netstat 展示 路 由 表 ， 也 是 男 一 种 确定 接口 的 方法 。 我 们 通常 指定 -n 
标志 以 输出 数值 地 址 。 它 还 给 出 默认 路 由 器 的 了 P 地 址 。 


freebsd 96 netstat -nr 


Routing tables 


Internet: 

Destination 
Expire 

default 

12.106.32/24 
hme0 

12.106.32.1 
1187 

12.106.32.253 
140 

12.106.32.254 

127.0.0.1 

192.168.42 
hmel 

192.168.42.1 

192.168.42.2 
210 

Internet6: 


Destination 


Flags Netif Expire 


::/96 


UGRSc lo0 => 


default 
gif 


UH lo0 


Gateway Flags 
12.106.32.1 USGc 
link#1 UC 


00:b0:8e:92:2c:00 UHLW 


08:00:20:b8:f7:e0 UHLW 


08:00:20:a7:68:6b UHLW 


127.0.0.1 UH 


link#2 UC 


08:00:20:a7:68:6b UHLW 
00:04:ac:17:bf:38 UHLW 


Refs Use Netif 


10 6877 hmeO 


3 0 
9 7 hme0 
0 1 hme0 
0 2 lo0 
1 10167 100 
2 0 
0 11 100 


2 24108 hmel 


Gateway 


3ffe:b80:3:9ad1::1 UGSc 


::ffff:0.0.0.0/96 s UGRSc 


lo0 

3ffe:b80:3:9ad1::1 3ffe:b80:3:9ad1::2 UH 
gif 

3ffe:b80:3:9ad1::2 link#8 UHL 
100 

3ffe:b80:1f8d::/48 100 USc 
lo0 

3ffe:b80:1f8d:1::/64 link#1 UC 
hme0 

3ffe:b80:1f8d:1::1 08:00:20:a7:68:6b UHL 
lo0 

3ffe:b80:1f8d:2::/64 link#2 UC 
hmel 

3ffe:b80:1f8d:2::1 08:00:20:a7:68:6b UHL 
lo0 

3ffe:b80:1f8d:2:204:acff:fe17:bf38 | 00:04:ac:17:bf:38 UHLW hme1 

fe80::/10 zl 
UGRSc lo0 

fe80::%hme0/64 link#1 UC 
hme0 

fe80::a00:20ff:fea7:686b%hme0 08:00:20:a7:68:6b UHL 
lo0 

fe80::96hme1/64 link#2 UC 
hmel 

fe80::a00:20ff:fea7:686b%hmel 08:00:20:a7:68:6b UHL 
lo0 

fe80::%100/64 fe80::196100 Uc 


lo0 


fe80::196100 link#6 UHL 


100 

fe80::%gif0/64 link#8 UC 
gif 

fe80::a00:20ff:fea7:686b%gif0 link#8 UHL 
100 

ff01::/32 ud U 
lo0 

ff02::/16 i 
UGRS lo0 

ff02::%hme0/32 link#1 UC 
hme0 

ff02::%hme1/32 link#2 UC 
hmel 

ff02::96100/32 sl UC 
lo0 

ff02::%gif0/32 link#8 UC 
gif 


o 
¿OD 


(3) 有 了 各 个 网 络 接口 的 名 字 ， 执 行 ifconfig 就 可 获得 每 个 接口 的 详细 信 


linux 96 ifconfig ethO 
eth0 Link encap:Ethernet HWaddr 00:C0:9F:06:BO:E1 
inet  addr:206.168.112.96 Bcast:206.168.112.127 
Mask:255.255.255.128 
UP BROADCAST RUNNING MULTICAST | MTU:1500 
Metric:1 
RX packets:49214397 errors:0 dropped:0 overruns:0 frame:0 
TX packets:40543799 errors:0 dropped:0 overruns:0 carrier:0 


collisions:0 txqueuelen:100 


RX bytes:1098069974 (1047.2 Mb) TX bytes:3360546472 
(3204.8 Mb) 
Interrupt:11 Base address:0x6000 

该 命令 给 出 了 指定 接口 的 IP 地 址 、 子 网 掩 码 和 广播 地 址 。 其 中 的 
MULTICAST 标 志 通 常 指明 该 接口 所 在 主机 支持 多 播 。 有 些 ifconfig 的 实现 还 提 
供 -a 标 志 ， 用 于 输出 所 有 已 配置 接口 的 信息 。 

(4) 找 出 本 地 网 络 中 众多 主机 的 IP 地 址 的 方法 之 一 是 ， 针 对 从 上 一 步 找 到 
的 本 地 接口 的 广播 地 址 执行 ping 命 令 。 

linux 96 ping -b 206.168.112.127 

WARNING: pinging broadcast address 

PING 206.168.112.127 (206.168.112.127) from 206.168.112.96 : 56(84) bytes 
of data. 

64 bytes from 206.168.112.96: icmp_seq=0 ttl=255 time-241 usec 

64 bytes from 206.168.112.40: icmp_seq=0 ttl=255 time=2.566 msec (DUP!) 

64 bytes from 206.168.112.118: icmp_seq=0 ttl=255 time=2.973 msec (DUP!) 

64 bytes from 206.168.112.14: icmp_seq=0 ttl=255 time=3.089 msec (DUP!) 

64 bytes from 206.168.112.126: icmp_seq=0 ttl=255 time=3.200 msec (DUP!) 

64 bytes from 206.168.112.71: icmp_seq=0 ttl=255 time=3.311 msec (DUP!) 

64 bytes from 206.168.112.31: icmp_seq=0 ttl=64 time=3.541 msec (DUP!) 

64 bytes from 206.168.112.7: icmp_seq=0 ttl=255 time=3.636 msec (DUP!) 


1.10 Unix 标 准 


在 编写 本 书 时 ， 最 引 人 注 目的 Unix 标 准 化 活动 是 由 Austin 公 共 标 准 修订 组 
(The Austin Common Standards Revision Group, CSRG) 主持 的 。 他 们 的 努力 
结果 是 涵盖 1 700 多 个 编程 接口 的 约 4 000 页 内 容 的 规范 [Josey 2002] 。 这 些 
规范 既 具 有 IEEE POSIX 名 字 ， 也 具有 开放 团体 的 技术 标准 (The Open Group's 
Technical Standard) 名 字 。 其 结果 是 同一 个 Unix 标 准 有 多 个 名 字 来 指称 : 
ISO/IEC 9945:2002 ` IEEE Std 1003.1-2001 和 单一 Unix 规 范 第 3 版 (Single Unix 


Specification Version 3) 都 指 同一 个 标准 。 本 书 中 除了 像 本 节 这 样 需要 讨论 各 
种 较 早 期 标准 各 自 特 性 的 章节 外 ， 我 们 简单 地 称 这 个 Unix 标 准 为 POSIX 规 范 
(The POSIX Specification) 。 

获取 这 个 统一 标准 的 最 简易 方法 是 定购 其 CD-ROM 拷 贝 或 通过 Web 免 费 访 
问 。 这 两 种 方法 的 起 始点 都 是 http://www.UNIX.org/version3 ° 

1.10.1 POSIX 的 背景 

POSIX (可 移植 操作 系统 接口 ) 是 Portable Operating System Interface 的 首 
字母 缩写 。 它 并 不 是 单个 标准 ， 而 是 由 电气 与 电子 工程 师 学 会 (the Institute 
for Electrical and Electronics Engineers, Inc.) 即 IEEE 开 发 的 一 系列 标准 。 
POSIX 标 准 已 被 国际 标准 化 组 织 即 ITSO 和 国际 电工 委员 会 (the International 
Electrotechnical Commission) 即 IEC 采 纳 为 国际 标准 (这 两 个 组 织 合 称 为 
ISO/IEC) 。 下 面 是 POSIX 标 准 的 发 展 简 史 。 

第 一 个 POSIX 标 准 是 IEEE Std 1003.1-1988 (317 页 ) 。 它 详 述 了 进入 类 
Unix 内 核 的 C 语 言 接口 ， 涵 盖 了 下 述 领 域 : 进程 原 语 (fork、exec、 信 号 和 定 
时 器 ) 、 进 程 环 境 〈 用 户 ID 和 进程 组 ) 、 文 件 与 目录 (所 有 I/O 画 数 ) 、 终 端 
IO、 系 统 数 据 库 〈 口 令 文 件 和 用 户 组 文件 ) 以 及 tar 和 cpio 归 档 格 式 。 

第 一 个 POSIX 标 准 在 1986 年 是 称 为 "IEEE-IX” 的 试用 版 。POSIX 这 个 名 字 
是 由 Richard Stallman 建 议 使 用 的 > 

第 二 个 POSIX 标 准 是 IEEE Std 1003.1-1990 (35651) , tE KH ISO/IEC 
9945-1: 1990。 从 1988 版 本 到 1990 版 本 只 做 了 少量 的 修改 。 新 添 的 副标题 为 
“Part 1: System Application Program Interface (API) [C Language]”， 表 明 本 标准 
AC H API ° 

下 一 个 标准 是 两 卷 本 的 IEEE Std 1003.2-1992 (23130070) 。 它 的 副标题 
为 “Part 2: Shell and Utilities”。 这 一 部 分 定义 了 shell (基于 System V 的 Bourne 
Shell) 和 大 约 100 个 实用 程序 (通常 从 shell 启 动 执行 的 程序 ， 如 awk、 
basename、Vvi 和 yacc 等 等 ) 。 本 书 称 这 个 标准 为 POSIX.2。 

再 下 一 个 标准 是 IEEE Std 1003.1b-1993 (590 页 ) ， 先 前 称 为 IEEE 
P1003.4。 这 是 对 1003.1-1990 标 准 的 更 新 ， 添 加 了 由 P1003.4 工 作 组 开发 的 实时 
扩展 。1003.1b-1993 相 比 1990 年 版 标准 新 增 的 条 目 包括 : 文件 同步 、 异 步 


IO、 信 和 号 量 、 存 储 管理 (mmap 和 共享 内 存 ) 、 执 行 调度 、 时 钟 与 定时 器 以 及 
消息 队列 > 

更 下 一 个 标准 是 IEEE Std 1003.1 1996 年 版 [IEEE 1996] (743 页 ) ， 也 
PK AN ISO/IEC 9945-1:1996, ， 它 包括 1003.1-1990 (基本 API) ^ 1003.1b-1993 

(实时 扩展 ) 、1003.1c-1995 (pthreads) 和 1003.1i-1995 (对 1003.1b 的 技术 性 
修订 ) 。 该 标准 增添 了 3 章 关 于 线程 的 内 容 ， 并 另 有 关于 线程 同步 ( 互 不 锁 和 
条 件 变量 ) 、 线 程 调度 和 同步 调度 的 各 节 。 本 书 称 这 个 标准 为 POSIX.1。 该 标 
准 还 有 一 个 前 言 ， 其 中 声明 ISO/IEC 9945 由 下 面 3 个 部 分 构成 。 

Part 1: System API (C language) 一 一 第 1 部 分 : 系统 API (CHF) ° 

Part 2: Shell and utilities 第 2 部 分 : Shell 和 实用 程序 。 

第 3 部 分 : 系统 管理 (正在 开发 中 ) o 

第 1 部 分 和 第 2 部 分 就 是 我 们 所 说 的 POSIX.1 和 POSIX.2。 

743 页 中 有 超过 四 分 之 一 的 篇 幅 是 一 个 标题 为 “Rationale and Notes”( 理 由 
与 注解 ) 的 附录 。 该 附录 含有 历史 性 信息 和 某 些 特性 被 加 入 或 删除 的 理由 。 
这 些 理由 通常 跟 正式 标准 一 样 有 教 益 。 

最 后 一 个 标准 是 在 2000 年 被 认可 [10] 的 IEEE Std 1003.1g: Protocol- 
independent interfaces (PIT) ° 在 单一 Unix 规 范 第 3 版 (The Single Unix 
Specification Version 3) 面世 之 前 ， 这 是 与 本 书 涵盖 的 主题 最 为 相关 的 POSIX 
产品 。 它 是 联网 API 标 准 ， 它 定义 了 两 个 API， 并 称 它 们 为 详尽 网 络 接口 

(Detailed Network Interface, DNI) ° 

DNISocket， 基 于 4.4BSD 的 套 接 字 API ° 

DNIXTI， 基 于 X/Open 的 XPG4 规 范 。 

这 个 标准 的 工作 作为 P1003.12 工 作 组 (后 来 改名 为 P1003.1g) 起 始 于 20 世 
纪 80 年 代 后 期 。 本 书 称 这 个 标准 为 POSIX.1g ° 

关于 各 种 POSIX 标准 的 当前 状况 可 以 访问 
http://www.pasc.org/standing/sd11.html ° 

1.10.2 开放 团体 的 背景 

开放 团体 (The Open Group) 是 由 1984 年 成 立 的 X/Open 公司 (X/Open 
Company) 和 1988 年 成 立 的 开放 软件 基金 会 (Open Software Foundation , 
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OSF) 于 1996 年 合并 成 的 组 织 。 它 是 厂商 、 工 业界 最 终 用 户 、 政 府 和 学 术 机 构 
共同 参加 的 国际 组 织 。 下 面 是 开放 团体 制定 的 标准 的 简要 背景 。 
X/Open 公司 于 1989 年 出 版 了 X/Open Portability Guide (X/Open 移植 性 指 
Bj, XPG) 第 3 期 ， 即 XPG3。 
XPG 第 4 期 即 XPG4 出 版 于 1992 年 ， 其 第 2 版 出 版 于 1994 年 。 这 个 最 新 版 本 
也 称 为 “Spec 1170”"， 其 中 魔 数 1170 是 系统 接口 数 (926 个 ) 、 头 文件 数 (70 
个 ) 和 命令 数 (174 个 ) 的 总 和 。 这 组 规范 的 最 终 名 字 是 X/Open Single Unix 
Specification (X/Open 单一 Unix 规 范 ) ， 也 称 为 “Unix 95”。 
单一 Unix 规 范 第 2 版 于 1997 年 3 月 发 行 。 符 合 这 个 规范 的 产品 称 为 “Unix 
98”。 本 书 就 称 这 个 规范 为 “Unix 98”。Unix 98 的 接口 数目 从 1170 个 增长 到 1434 
个 ， 而 用 于 工作 站 的 接口 数 则 达到 3 030 个 ， 因 为 它 包 含 公共 桌面 环境 
(Common Desktop Environment, CDE) ， 而 公共 桌面 环境 又 需要 X Windows 
系统 和 Motif 用 户 接 口 。 本 规范 的 详情 参见 http:/www.UNIX.org/version2 和 
[Josey 1997] ° Unix 98 为 套 接 字 API 和 XTI API 定 义 了 网 络 支持 服务 。 这 个 规 
范 与 POSIX.1g 几 乎 相同 。 
不 骏 的 是 ，X/Open 称 它们 的 网 络 标 准 为 XNS: X/Open Networking 
Services。 定 义 Unix 98 套 接 字 和 XTI 的 文档 的 这 一 版 本 称 为 “XNS Issue 5" 
(XNS 第 5 期 。 在 网 络 界 ，XNS 已 是 Xerox Network Systems 体 系 结构 的 简 
称 。 所 以 ， 我 们 避免 使 用 XNS， 而 称 这 个 X/Open 文档 为 Unix 98 网 络 API 标 
准 。 
1.10.3 标准 的 统一 
MATA Arte, PERE Austin CSRG 发 布 单一 Unix 规 范 第 3 版 ，POSIX 和 
开放 团体 都 继续 发 展 ， 达 成 统一 的 标准 。CSRG 促 成 50 多 家 公司 就 单一 标准 达 
成 一 致意 见 ， 这 在 Unix 发 展 史 上 确实 是 一 件 划时代 之 大 事 。 如 今 大 多 数 Unix 
系统 都 符合 POSIX.1 和 POSIX.2 的 某 个 版 本 ， 不 少 系 统 符 合 单一 Unix 规 苑 第 3 
版 。 
历史 上 多 数 Unix 系 统 或 者 源 目 Berkeley， 或 者 源 目 System V， 不 过 这 些 差 
别 在 慢 慢 消失 ， 因 为 大 多 数 厂商 已 开始 采纳 这 些 标 准 。 然 而 在 系统 管理 的 处 
理 上 两 者 仍然 存在 较 大 差别 ， 这 个 领域 目前 还 没有 标准 可 循 。 


本 书 的 焦点 是 单一 Unix 规 范 第 3 版 ， 其 中 又 以 套 接 字 API 为 主 。 只 要 可 
， 我 们 就 使 用 标准 函数 。 
1.10.4 因特网 工程 任务 攻坚 组 
因特网 工程 任务 攻坚 组 (Internet Engineering Task Force, IETF) 是 一 个 
由 关心 因特网 体系 结构 的 发 展 及 其 顺利 运作 的 网 络 设计 者 、 操 作 员 、 厂 商 和 
研究 人 员 联 合 组 成 的 开放 的 国际 团体 。 它 向 任何 感 兴趣 的 个 人 开放 。 

因特网 标准 处 理 过 程 在 RFC 2026 [Bradner 1996] 中 说 明 。 因 特 网 标准 一 
般 处 理 协 议 问 题 而 不 是 编程 API， 不 过 仍 有 两 个 RFC (RFC3493 [Gilligan et 
al. 2003] 和 RFC 3542 [Stevens et al. 2003] ) 说 明了 IPv6 的 套 接 字 API。 它 们 
是 信息 性 的 RFC， 并 不 是 标准 ， 制 定 它 们 的 目的 是 加 速 部 署 由 多 家 从 事 IPv6 工 
作 较 早 的 厂商 所 开发 的 可 移植 网 络 应 用 程序 。 尽 管 标准 主体 趋 于 花费 很 长 的 
时 间 ， 其 中 许多 API 却 已 经 在 单一 Unix 规 范 第 3 版 中 标准 化 了 。 
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1.11 64 系 结核 


20 世 纪 90 年 代 中 期 到 未 期 开始 出 现 向 64 位 体系 结构 和 64 位 软件 发 展 的 趋 
势 。 其 原因 之 一 是 在 每 个 进程 内 部 可 以 由 此 使 用 更 长 的 编 址 长 度 〈 即 64 位 指 
针 ) ， 从 而 可 以 寻 址 很 大 的 内 存 空间 (超过 23? Fi) 。 现 有 32 位 Unix 系 统 
共同 的 编程 模型 称 为 ILP32 模 型 ， 表 示 整 数 (ID) 、 长 整数 (L) 和 指针 (P) 
都 占用 32 位 。64 位 Unix 系 统 上 变 得 最 为 流行 的 模型 称 为 LP64 模 型 ， 表 示 只 有 
长 整数 (L) 和 指针 (P) 占用 64 位 。 图 1-17 对 这 两 种 模型 进行 了 比较 。 

从 编程 角度 看 ，LP64 模 型 意味 着 我 们 不 能 假设 一 个 指针 能 存放 在 一 个 整 
数 中 。 我 们 还 必须 考虑 LP64 模 型 对 现 有 API 的 影响 。 


数据 类 型 ILP32 模 型 LP64 模 型 


图 1-17 ILP32 和 LP64 模 型 保存 不 同 数据 类 型 所 占用 的 位 数 的 比较 


ANSI C 创 造 了 size_t 数 据 类 型 ， 它 用 于 作为 malloc 的 唯一 参数 〈 待 分 配 的 
字 节 数 ) ， 或 者 作为 read 和 write 的 第 三 个 参数 〈 待 读 或 写 的 字 节 数 ) 。 在 32 位 
系统 中 size_t 是 一 个 32 位 值 ， 但 是 在 64 位 系统 中 它 必须 是 一 个 64 位 值 ， 以 便 发 
挥 更 大 寻 址 模型 的 优势 。 这 意味 着 64 位 系统 中 也 许 含有 一 个 把 size_t 定 义 为 
unsigned long 的 typedef 指 令 。 联 网 API 存 在 如 下 问题 : POSIX.1g 的 某 些 草案 规 
定 ， 存 放 套 接 字 地 址 结构 大 小 的 函数 参数 具有 size t 数 据 类 型 (如 bind 和 
connect 的 第 三 个 参数 ) 。 某 些 XTI 结 构 也 含有 数据 类 型 为 long 的 成 员 (如 
tinfo 和 t_opthdr 结 构 ) 。 如 果 这 些 规 定 不 加 修改 ， 当 Unix 系 统 从 ILP32 模 型 转 
变 为 LP64 模 型 时 ，size_t 和 long 都 将 从 32 位 值 变 为 64 位 值 。 这 两 个 例子 实际 上 
并 不 需要 使 用 64 位 的 数据 类 型 : 套 接 字 地 址 结构 的 长 度 最 多 也 就 儿 百 个 字 
节 ， 给 XTI 的 结构 成 员 使 用 long 数 据 类 型 则 是 个 错误 。 

处 理 这 些 情况 的 办 法 是 使 用 专门 设计 的 数据 类 型 。 套 接 字 API 对 套 接 字 地 
址 结构 的 长 度 使 用 socklen t 数 据 类 型 ，XTI 则 使 用 t_scalar tt_uscalar_t 数 据 类 
型 。 不 把 这 些 值 由 32 位 改 为 64 位 的 理由 是 易于 为 那些 已 在 32 位 系统 中 编译 的 
应 用 程序 提供 在 新 的 64 位 系统 中 的 二 进 制 代码 兼容 性 。 


1.12 小 结 


图 1-5 展 示 了 一 个 尽管 简单 但 却 完整 的 TCP 客 户 程序 ， 它 从 某 个 指定 的 服 
务 器 读 取 当 前 时 间 和 日 期 ， 而 图 1-9 则 展示 了 其 服务 器 程序 的 一 个 完整 版 本 。 
这 两 个 例子 引入 了 许多 本 书 其 他 部 分 将 要 扩展 的 概念 和 术语 。 

我 们 的 客户 程序 与 Ipv4 协 议 相关 ， 我 们 于 是 把 它 修改 成 使 用 Tpv6， 但 这 样 
做 却 只 是 给 了 我 们 另外 一 个 协议 相关 的 程序 。 我 们 将 在 第 11 章 中 开发 一 些 可 
用 来 编写 协议 无 关 代码 的 画 数 ， 这 在 因特网 开始 使 用 IPv6 后 会 变 得 非常 重 
要 。 

纵 贯 本 书 ， 我 们 将 使 用 1.4 节 中 介绍 的 包 误 画 数 来 缩短 代码 ， 同 时 又 保证 
测试 每 个 画 数 调用 ， 检 查 是 否 返 回 错 误 。 我 们 的 包 襄 画 数 都 以 一 个 大 写字 母 
开头 。 


单一 Unix 规 范 第 3 版 有 多 个 名 称 ， 我 们 简单 地 称 之 为 POSIX 规 范 。 它 是 两 
个 长 期 发 展 的 标准 团体 各 自 努 力 的 汇合 ， 由 Austin CSRG 最 终 团结 起 来 。 

对 Unix 网 络 支持 历史 感 兴趣 的 读者 可 参阅 叙述 Unix 历 史 的 [Salus 1994] 
和 叙述 TCP/TP 及 因特网 历史 的 [Salus 1995] ° 


习题 


1.1 按 1.9 节 未 尾 的 步骤 找 出 你 自己 的 网 络 拓扑 的 信息 。 

1.2 获取 本 书 示例 的 源 代码 ( 见 前 言 ， 编 译 并 测试 图 1-5 所 示 的 TCP 时 间 
获取 客户 程序 。 运 行 这 个 程序 若干 次 ， 每 次 以 不 同 IP 地 址 作为 命令 行 参数 。 

1.3 把 图 1-5 中 的 socket 的 第 一 参数 改 为 9999。 编 译 并 运行 这 个 程序 。 结 果 
如 何 ? 找 出 对 应 于 所 输出 出 错 的 errmno 值 。 你 如 何 可 以 找到 关于 这 个 错误 的 更 
多 信息 ? 

1.4 修改 图 1-5 中 的 while 循 环 ， 加 入 一 个 计数 器 ， 累 计 read 返 回 大 于 零 值 的 
次 数 。 在 终止 前 输出 这 个 计数 器 值 。 编 译 并 运行 你 的 新 客户 程序 。 

1.5 按 下 述 步骤 修改 图 1-9 中 的 程序 。 首 先 ， 把 赋 于 sin_port 的 端口 号 从 13 
改 为 9999。 然 后 ， 把 write 的 单一 调用 改 为 循环 调用 ， 每 次 写 出 结果 字符 串 的 
一 个 字 节 。 编 译 修改 后 的 服务 器 程序 并 在 后 台 启 动 执 行 。 接 着 修改 前 一 道 习 
题 中 的 客户 程序 〈 它 在 终止 前 输出 计数 器 值 ) ， 把 赋 于 sin_port 的 端口 号 从 13 
改 为 9999。 启 动 这 个 客户 程序 ， 指 定 运 行 修改 后 的 服务 器 程序 的 主机 的 IP 地 
址 作为 命令 行 参数 。 客 户 程序 计数 器 的 输出 值 是 多 少 ? 如 果 可 能 ， 在 不 同 主 
机 上 运行 这 个 客户 与 服务 器 程序 。 
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2.1 概述 


本 章 提 供 本 书 示例 所 用 TCP/IP 协 议 的 概貌 。 我 们 的 目的 是 从 网 络 编程 角 
度 提 供 足 够 的 细 市 以 理解 如 何 使 用 这 些 协议 ， 同 时 提供 有 关 这 些 协议 的 实际 


设计 、 实 现 及 历史 的 具体 描述 的 参考 点 。 

本 章 的 焦点 是 传输 层 ， 包 括 TCP、UDP 和 SCTP (Stream Control 
Transmission Protocol ， 流 控制 传输 协议 ) 。 绝 大 多 数 客户 /服务 器 网 络 应 用 使 
用 TCP 或 UDP。SCTP 是 一 个 较 新 的 协议 ， 最 初 设计 用 于 跨 因 特 网 传输 电话 信 
令 。 这 些 传输 协议 都 转 而 使 用 网 络 层 协 议 IP: 或 是 IPv4， 或 是 IPv6。 尽 管 可 以 
绕 过 传输 层 直 接 使 用 IPv4 或 IPv6， 但 这 种 技术 (往往 称 为 原始 套 接 字 ) 却 极 少 
使 用 。 因 此 ， 我 们 把 IPv4 和 IPv6 以 及 ICMPv4 和 ICMPv6 的 详细 描述 安排 在 附录 
A 中 。 

UDP 是 一 个 简单 的 、 不 可 靠 的 数据 报 协 议 ， 而 TCP 是 一 个 复杂 、 可 靠 的 字 
节 流 协议 。SCTP 与 TCP 类 似 之 处 在 于 它 也 是 一 个 可 靠 的 传输 协议 ， 但 它 还 提 
供 消 息 边 界 、 传 输 级 别 多 宿 (multihoming) 支持 以 及 将 头 端 阻塞 (head-of- 
line blocking) 减少 到 最 小 的 一 种 方法 。 我 们 必须 了 解 由 这 些 传 输 层 协议 提供 
给 应 用 进程 的 服务 ， 这 样 才能 卉 清 这 些 协议 处 理 什 么 ， 应 用 进程 中 又 需要 处 
HITZ ° 

TCP 的 某 些 特性 一 旦 理解 ， 就 很 容易 编写 健壮 的 客户 和 服务 器 程序 ， 也 很 
容易 使 用 诸如 netstat 等 普遍 可 用 的 工具 来 调试 客户 和 服务 器 程序 。 本 章 将 阐述 
以 下 相关 主题 : TCP 的 三 路 握手 、TCP 的 连接 终止 序列 和 TCP 的 TIME_WAIT 
状态 ，SCTP 的 四 路 握手 和 SCTP 的 连接 终止 ， 加 上 由 套 接 字 层 提供 的 TCP、 
UDP 和 SCTP 缓 冲 机 制 ， 等 等 。 


2.2 总 


虽然 协议 族 被 称 为 “TCP/IP”"， 但 除了 TCP 和 IP 这 两 个 主要 协议 外 ， 还 有 许 
多 其 他 成 员 。 图 2-1 展 示 了 这 些 协 议 的 概况 。 

图 2-1 中 同时 展示 了 IPv4 和 IPvV6。 从 右 向 左 查看 该 图 ， 最 右边 的 5 个 网 络 应 
用 在 使 用 IPv6; 我们 将 在 第 3 章 中 随 sockaddr_in6 结 构 讲解 AF_INET6 常 值 。 随 
后 的 6 个 网 络 应 用 使 用 IPv4。 

最 左边 名 为 tcpdump 的 网 络 应 用 或 者 使 用 BSD 分 组 过 滤器 (BSD packet 
filter, BPF) ， 或 者 使 用 数据 链 路 提供 者 接口 (datalink provider interface, 


DLPI) 直接 与 数据 链 路 进行 通信 。 处 于 其 右边 所 有 9 个 应 用 下 面 的 虚线 标记 为 
API， 它 通常 是 套 接 字 或 XTI。 访 问 BPF 或 DLPI 的 接口 不 使 用 套 接 字 或 XTI 。 

这 种 情况 存在 一 个 例外 : Linux 使 用 一 种 称 为 SOCK_PACKET 的 特殊 套 接 
字 类 型 提供 对 于 数据 链 路 的 访问 。 我 们 将 在 第 28 章 中 详细 讲述 这 个 例外 e 


IPv4 应 用 程序 IPv6 应 用 程序 
AF INET AF INET6 
sockaddr_in{} Sockaddr ine() 

+ — 
tcp- m- * trace- s 
dump | route Ping | |voute| | 应 用 Eis 应 用 T 应 用 route| | P+"9 
AT = 

------- E---RR----R--------—-— .»~—--------4----44---4-- API 


128 位 地 址 


图 2-1 TCP/P 协 议 概 况 

图 2-1 中 还 标明 traceroute 程 序 使 用 两 种 套 接 字 : 卫 套 接 字 用 于 访问 卫 ， 
ICMP 套 接 字 用 于 访问 ICMP。 在 第 28 章 中 ， 我 们 将 开发 ping 和 traceroute 这 两 个 
应 用 的 IPv4 和 IPv6 版 本 。 

下 面 我 们 讲解 一 下 图 2-1 中 的 每 一 个 协议 框 。 

IPv4 网 际 协 议 版 本 4 (Internet Protocol version 4) ° IPv4 (通常 称 之 为 

IP) 自 20 世 纪 80 年 代 早 期 以 来 一 直 是 网 际 协议 族 的 主力 协议 。 它 使 用 32 位 地 

( 见 A.4 节 ) 。IPv4 给 TCP、UDP、SCTP、ICMP 和 IGMP 提 供 分 组 递送 服 


址 

$ o 
IPv6 网 际 协 议 版 本 6 (Internet Protocol version 6) 。IPv6 是 在 20 世 纪 90 年 

代 中 期 作为 IPv4 的 一 个 替代 品 设计 的 。 其 主要 变化 是 使 用 128 位 更 大 地 址 (Ul 


A.5 节 ) 以 应 对 20 世 纪 90 年 代 因 特 网 的 爆发 性 增长 。IPv6 给 TCP、UDP、SCTP 
和 ICMPv6 提 供 分 组 递送 服务 。 

当 无 需 区 别 IPV4 和 IPv6 时 ， 我 们 经 常 把 “IP” 一 词 作为 形容 词 使 用 ， 如 IP 
层 、IP 地 址 等 。 

TCP 传输 控制 协议 (Transmission Control Protocol) 。TCP 是 一 个 面向 连 
接 的 协议 ， 为 用 户 进程 提供 可 靠 的 全 双 工 字 市 流 。TCP 套 接 字 是 一 种 流 套 接 字 

(stream socket) 。TCP 关 心 确 认 、 超 时 和 重 传 之 类 的 细节 。 大 多 数 因特网 应 
用 程序 使 用 TCP。 注 意 ，TCP 既 可 以 使 用 IPv4， 也 可 以 使 用 IPv6。 

UDP 用 户 数据 报 协议 (User Datagram Protocol) 。UDP 是 一 个 无 连接 协 
议 。UDP 套 接 字 是 一 种 数据 报 套 接 字 (datagram socket) 。UDP 数 据 报 不 能 保 
证 最 终 到 达 它 们 的 目的 地 。 与 TCP 一 样 ，UDP 既 可 以 使 用 IPv4， 也 可 以 使 用 
IPv6 ° 

SCTP 流 控制 传输 协议 (Stream Control Transmission Protocol) ° SCTIP& 
一 个 提供 可 靠 全 双 工 关联 的 面向 连接 的 协议 ， 我 们 使 用 “关联 ”一 词 来 指称 
SCTP 中 的 连接 ， 因 为 SCTP 是 多 得 的 ， 从 而 每 个 关联 的 两 端 均 涉 及 一 组 卫 地址 
和 一 个 端口 号 。SCTP 提 供 消息 服务 ， 也 就 是 维护 来 自 应 用 层 的 记录 边界 。 与 
TCP 和 UDP 一 样 ， SCTP 既 可 以 使 用 IPv4， 也 可 以 使 用 IPv6， 而 且 能 够 在 同一 
个 关联 中 同时 使 用 它们 。 

ICMP 网 际 控制 消息 协议 (Internet Control Message Protocol) ° ICMP 
理 在 路 由 器 和 主机 之 间 流 通 的 错误 和 控制 消 上 息 。 这 些 消 轧 通常 由 TCP/IP 网 络 
支持 软件 本 身 (而 不 是 用 户 进程 ， 产 生 和 处 理 ， 不 过 图 中 展示 的 ping 和 
traceroute 程 序 同样 使 用 ICMP。 有 时 我 们 称 这 个 协议 为 ICMPv4， 以 便 与 
ICMPv6 相 区 别 。 

IGMP 网 际 组 管理 协议 (Internet Group Management Protocol) ° IGMP H 
于 多 播 〈 见 第 21 章 ) ， 它 在 IPv4 中 是 可 选 的 。 

ARP 地 址 解析 协议 (Address Resolution Protocol) 。ARP 把 一 个 IPv4 地 址 
映射 成 一 个 硬件 地 址 (如 以 太 网 地 址 ) 。ARP 通 常用 于 诸如 以 太 网 、 令 牌 环 
网 和 FDDI 等 广播 网 络 ， 在 点 到 点 网 络 上 并 不 需要 。 


RARP 反 向 地 址 解析 协议 (Reverse Address Resolution Protocol) ° RARP 
把 一 个 硬件 地 址 映射 成 一 个 IPv4 地 址 。 它 有 时 用 于 无 盘 节 点 的 引导 。 

ICMPv6 网 际 控制 消息 协议 版 本 6 (Internet Control Message Protocol 
version 6) 。ICMPv6 综 合 了 ICMPv4、IGMP 和 ARP 的 功能 。 

BPF BSD 分 组 过 滤器 (BSD packet filter) 。 该 接口 提供 对 于 数据 链 路 层 
的 访问 能 力 ， 通 常 可 以 在 源 自 Berkeley 的 内 核 中 找到 o 

DLPI 数据 链 路 提供 者 接口 (datalink provider interface) 。 该 接口 也 提供 
对 于 数据 链 路 层 的 访问 能 力 ， 通 常 随 SVR4 内 核 提 供 。 

所 有 网 际 协议 由 一 个 或 多 个 称 为 请 求 评注 (Request for Comments, 
RFC) 的 文档 定义 ， 这 些 RFC 就 是 它们 的 正式 规范 。 习 题 2.1 的 答案 说 明 如 何 
获得 这 些 RFC 。 

我 们 使 用 术语 “IPv4/IPv6 主 机 ”或 “ 双 栈 主机 ”表示 同时 支持 IPvV4 和 IPv6 的 主 
机 。 

TCP/IP 协 议 的 其 他 细节 参见 TCPv1。TCP/IP 在 4.4BSD 上 的 实现 参见 
TCPv2 ° 


2.3 用 户 数据 报 协 议 (UDP) 


UDP 是 一 个 简单 的 传输 层 协 议 ， 在 RFC 768 [Postel 1980] 中 有 详细 说 
明 。 应 用 进程 往 一 个 UDP 套 接 字 写 个 消息 ， 该 消息 随后 被 封装 
(encapsulating) 到 一 个 UDP 数据 报 ， 该 UDP 数据 报 进 而 又 被 封装 到 一 个 卫 数 
据 报 ， 然 后 发 送 到 目的 地 。UDP 不 保证 UDP 数据 报 会 到 达 其 最 终 目的 地 ， 不 
保证 各 个 数据 报 的 先后 顺序 跨 网 络 后 保持 不 变 ， 也 不 保证 每 个 数据 报 只 到 达 
一 次 。 

我 们 使 用 UDP 进行 网 络 编程 所 遇 到 的 问题 是 它 缺 乏 可 靠 性 。 如 果 一 个 数 
据 报到 达 了 其 最 终 目 的 地 ， 但 是 校 验 和 检测 发 现 有 错误 ， 或 者 该 数据 报 在 网 
络 传 输 途 中 被 丢弃 了 ， 它 就 无 法 被 投递 给 UDP 套 接 字 ， 也 不 会 被 源 端 自动 重 
传 。 如 果 想 要 确保 一 个 数据 报到 达 其 目的 地 ， 可 以 往 应 用 程序 中 添置 一 大 堆 
的 特性 : 来 自 对 端的 确认 、 本 端的 超时 与 重 传 等 。 


每 个 UDP 数据 报 都 有 一 个 长 度 。 如 果 一 个 数据 报 正 确 地 到 达 其 目的 地 ， 
那么 该 数据 报 的 长 度 将 随 数据 一 道 传递 给 接收 端 应 用 进程 。 我 们 已 经 提 到 过 
TCP 是 一 个 字 节 流 (byte-stream) 协议 ， 没 有 任何 记录 边界 〈 见 1.2 节 ) ， 这 一 
点 不 同 于 UDP。 

我 们 也 说 UDP 提供 无 连接 的 (connectionless) 服务 ， 因 为 UDP 客户 与 服 
务 器 之 间 不 必 存 在 任何 长 期 的 关系 。 举 例 来 说 ， 一 个 UDP 客户 可 以 创建 一 个 
套 接 字 并 发 送 一 个 数据 报 给 一 个 给 定 的 服务 器 ， 然 后 立即 用 同一 个 套 接 字 发 
送 男 一 个 数据 报 给 另 一 个 服务 器 。 同 样 地 ， 一 个 UDP 服 务 器 可 以 用 同一 个 
UDP 套 接 字 从 知 干 个 不 同 的 客户 接收 数据 报 ， 每 个 客户 一 个 数据 报 。 


2.4 NY (TCP 


由 TCP 向 应 用 进程 提供 的 服务 不 同 于 由 UDP 提供 的 服务 。TCP 在 REFC 793 
| Postel 1981c] 中 有 详细 说 明 ， 然 后 由 RFC 1323 | Jacobson, Braden, and 
Borman 1992] ` RFC 2581 [Allman, Paxson, and Stevens 1999] ^ RFC 2988 
| Paxson and Allman 2000] 和 RFC 3390 | Allman, Floyd, and Partridge 2002 | 
加 以 更 新 。 首 先 ，TCP 提 供 客户 与 服务 器 之 间 的 连接 (connection) ° TCPÆ 
户 先 与 某 个 给 定 服务 器 建立 一 个 连接 ， 再 跨 该 连接 与 那个 服务 器 交换 数据 ， 
然后 终止 这 个 连接 。 
其 次 ，TCP 还 提供 了 可 靠 性 (reliability) 。 当 TCP 向 另 一 端 发 送 数据 时 ， 
它 要 求 对 端 返回 一 个 确认 。 如 果 没 有 收 到 确认 ，TCP 就 目 动 重 传 数 据 并 等 待 更 
长 时 间 。 在 数 次 重 传 失败 后 ，TCP 才 放弃 ， 如 此 在 党 试 发 送 数据 上 所 花 的 总 时 
间 一 般 为 4 一 10 分 钟 (依赖 于 具体 实现 ) 。 
注意 ，TCP 并 不 保证 数据 一 定 会 被 对 方 端点 接收 ， 因 为 这 是 不 可 能 做 到 
的 。 如 果 有 可 能 ， TCP 就 把 数据 递送 到 对 方 端点 ， 否 则 就 (通过 放弃 重 传 并 
中 断 连 接 这 一 手段 ) 通知 用 户 。 这 人 么 说 来 ，TCP 也 不 能 被 描述 成 是 100% 可 靠 
的 协议 ， 它 提供 的 是 数据 的 可 靠 递送 或 故障 的 可 靠 通知 。 
TCP 含 有 用 于 动态 估算 客户 和 服务 器 之 间 的 往返 时 间 (round-trip time, 
RTT) 的 算法 ， 以 便 它 知道 等 待 一 个 确认 需要 多 少时 间 。 举 例 来 说 ，RTT 在 一 


个 局 域 网 上 大 约 是 几 毫 秒 ， 跨 越 一 个 广域网 则 可 能 是 数秒 钟 。 另 外 ， 因 为 RTT 
受 网 络 流 通 各 种 变化 因素 影响 ，TCP 还 持续 估算 一 个 给 定 连接 的 RTT。 

TCP 通 过 给 其 中 每 个 字 节 关联 一 个 序列 号 对 所 发 送 的 数据 进行 排序 
(sequencing) 。 举 例 来 说 ， 假 设 一 个 应 用 写 2048 字 节 到 一 个 TCP 套 接 字 ， 导 
致 TCP 发 送 2 个 分 节 : 第 一 个 分 节 所 含 数 据 的 序列 号 为 1 一 1024， 第 二 个 分 节 所 
含 数 据 的 序列 号 为 1025~2048。 (分 市 是 TCP 传 递 给 IP 的 数据 单元 。) RUF 
些 分 节 非 顺序 到 达 ， 接 收 端 TCP 将 先 根据 它们 的 序列 号 重新 排序 ， 再 把 结 
据 传递 给 接收 应 用 。 如 果 接 收 端 TCP 接 收 到 来 自 对 端的 重复 数据 ( 壁 如 说 对 端 
认为 一 个 分 节 已 丢失 并 因此 重 传 ， 而 这 个 分 节 并 没有 真正 丢失 ， 只 是 网 络 通 
信 过 于 拥挤 ) ， 它 可 以 (根据 序列 号 ) 判定 数据 是 重复 的 ， 从 而 丢弃 重复 数 
据 。 

UDP 不 提供 可 靠 性 。UDP 本 身 不 提供 确认 、 序 列 号 、RTT 估 算 、 超 时 和 重 
传 等 机 制 。 如 果 一 个 UDP 数据 报 在 网 络 中 被 复制 ， 两 份 副 本 就 可 能 都 递送 到 
接收 端的 主机 。 同 样 地 ， 如 果 一 个 UDP 客户 发 送 两 个 数据 报到 同一 个 目的 
地 ， 它 们 可 能 被 网 络 重新 排序 ， 址 倒 顺 序 后 到 达 目 的 地 。UDP 应 用 必须 处 理 
所 有 这 些 情况 ， 在 22.5 节 中 我 们 将 展示 如 何 处 理 。 

再 次 ，TCP 提 供 流 量 控制 (flow control) 。TCP 总 是 告知 对 端 在 任何 时 刻 
它 一 次 能 够 从 对 端 接收 多 少 字 节 的 数据 ， 这 称 为 通告 窗口 (advertised 
window) 。 在 任何 时 刻 ， 该 窗口 指出 接收 缓冲 区 中 当前 可 用 的 空间 量 ， 从 而 
确保 发 送 端 发 送 的 数据 不 会 使 接收 缓冲 区 溢出 。 该 窗口 时 刻 动态 变化 : SR 
收 到 来 自发 送 端的 数据 时 ， 窗 口 大 小 就 减 小 ， 但 是 当 接收 端 应 用 从 缓冲 区 中 
读 取 数据 时 ， 窗 口 大 小 就 增 大 。 通 告 窗口 大 小 减 小 到 0 是 有 可 能 的 : 当 TCP 对 
应 某 个 套 接 字 的 接收 缓冲 区 已 满 ， 导 致 它 必 须 等 待 应 用 从 该 缓冲 区 读 取 数据 
时 ， 方 能 从 对 端 再 接收 数据 。 

UDP 不 提供 流量 控制 。 如 我 们 将 在 8.13 节 所 示 ， 让 较 快 的 UDP 发 送 端 以 一 
个 UDP 接收 端 难以 跟 上 的 速率 发 送 数据 报 是 非常 容易 的 。 

最 后 ，TCP 连 接 是 全 双 工 的 (full-duplex) 。 这 意味 着 在 一 个 给 定 的 连接 
上 应 用 可 以 在 任何 时 刻 在 进出 两 个 方向 上 既 发 送 数据 又 接收 数据 。 因 此 ，TCP 
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个 全 双 工 连接 后 ， 需 要 的 话 可 以 把 它 转换 成 一 个 单 工 连接 (Mech) 。 
UDP 可 以 是 全 双 工 的 。 


2.5 MM (SCTP 


SCTP 提 供 的 服务 与 UDP 和 TCP 提 供 的 类 似 。SCTP 在 RFC 2960 | Stewart et 
al. 2000] 中 详细 说 明 ， 并 由 RFC 3309 [Stone, Stewart, and Otis 2002] 加 以 更 
新 。RFC 3286 [Ong and Yoakum 2002] 给 出 了 SCTP 的 简要 介绍 。SCTP 在 客 
户 和 服务 器 之 间 提 供 关 联 (association) ， 并 像 TCP 那 样 给 应 用 提供 可 靠 性 、 
排序 、 流 量 控 制 以 及 全 双 工 的 数据 传送 。SCTP 中 使 用 “关联 ”一 词 取 代 “ 连 接 ” 
是 为 了 避免 这 样 的 内 涵 : 一 个 连接 只 涉及 两 个 人 PP 地址 之 间 的 通信 。 一 个 关联 
指 代 两 个 系统 之 间 的 一 次 通信 ， 它 可 能 因为 SCTP 文 持 多 宿 而 涉及 不 止 两 个 地 
址 。 

与 TCP 不 同 的 是 ，SCTP 是 面 癌 消息 的 (message-oriented) 。 它 提供 各 个 
记录 的 按 序 递送 服务 。 与 UDP 一 样 ， 由 发 送 端 写 入 的 每 条 记录 的 长 度 随 数据 
一 道 传递 给 接收 端 应 用 。 

SCTP 能 够 在 所 连接 的 端点 之 间 提 供 多 个 流 ， 每 个 流 各 目 可 靠 地 按 序 递送 
消息 。 一 个 流 上 某 个 消息 的 丢失 不 会 阻塞 同一 关联 其 他 流 上 消息 的 投递 。 这 
种 做 法 与 TCP 正 好 相反 ， 就 TCP 而 言 ， 在 单一 字 节 流 中 任何 位 置 的 字 节 丢失 都 
将 阻塞 该 连接 上 其 后 所 有 数据 的 递送 ， 直 到 该 丢失 被 修复 为 止 。 

SCTP 还 提供 多 宿 特性 ， 使 得 单个 SCTP 端 点 能 够 支持 多 个 人 P 地 址 。 该 特性 
可 以 增强 应 对 网 络 故 障 的 健壮 性 。 一 个 端点 可 能 有 多 个 宛 余 的 网 络 连接 ， 
个 网 络 又 可 能 有 各 上 自 接 入 因特网 基础 设施 的 连接 。 当 该 端点 与 只 一 个 端点 建 
立 一 个 关联 后 ， 如 果 它 的 某 个 网 络 或 某 个 跨越 因特网 的 通路 发 生 故 障 ，SCTP 
瓯 可 以 通过 切换 到 使 用 已 与 该 关联 相关 的 另 一 个 地 址 来 规避 所 发 生 的 故障 。 

类 似 的 健壮 性 在 路 由 协议 的 辅助 下 也 可 以 从 TCP 中 获得 。 举 例 来 说 ， 由 
iBGP 实 现 的 同一 域内 的 BGP 连 接 往往 把 赋予 路 由 器 内 某 个 虚拟 接口 的 多 个 地 
址 用 作 TCP 连 接 的 端点 。 该 域 的 路 由 协议 确保 两 个 路 由 器 之 间 只 要 存在 一 条 路 
由 ， 该 路 由 就 会 被 用 上 ， 从 而 保证 这 两 个 路 由 器 之 间 的 BGP 连 接 可 用 ; 要 是 


使 用 属于 某 个 物理 接口 的 地 址 来 建立 BGP 连 接 ， 该 物理 接口 又 变 得 不 工作 
了 ， 这 一 点 就 不 可 能 做 到 。SCTP 的 多 往 特 性 允许 主机 (而 不 仅仅 是 路 由 器) 
也 多 答 ， 而 且 允 许多 答 跨 越 不 同 的 服务 供应 商 发 生 ， 这 些 基 于 路 由 的 TCP 多 入 
方法 都 无 法 做 到 。 


2.6 TCP 连 接 的 建立 和 终止 


为 帮助 大 家 理解 connect、accept 和 close 这 3 个 函数 并 使 用 netstat 程 序 调试 
TCP 应 用 ， 我 们 必须 了 解 TCP 连 接 如 何 建立 和 终止 ， 并 掌握 TCP 的 状态 转换 
o 

2.6.1 三 路 握手 

建立 一 个 TCP 连 接 时 会 发 生 下 壕 情 形 。 

(1) 服务 器 必须 准备 好 接受 外 来 的 连接 。 这 通常 通过 调用 socket、bind 和 
listen 这 3 个 函数 来 完成 ， 我 们 称 之 为 被 动 打开 (passive open) 。 

(2) 客户 通过 调用 connect 发 起 主动 打开 (active open) 。 这 导致 客户 TCP 
发 送 一 个 SYN (同步 ) 分 节 ， 它 告诉 服务 器 客户 将 在 (BEIN) 连接 中 发 
送 的 数据 的 初始 序列 号 。 通 常 SYN 分 节 不 携带 数据 ， 其 所 在 IP 数 据 报 只 含有 
一 个 IP 首 部 、 一 个 TCP 首 部 及 可 能 有 的 TCP 选 项 (我 们 稍 后 讲解 ) 。 

(3) 服务 器 必须 确认 (ACK) 客户 的 SYN， 同 时 自己 也 得 发 送 一 个 SYN 分 
方 ， 它 含有 服务 器 将 在 同一 连接 中 发 送 的 数据 的 初始 序列 号 。 服 务 器 在 单个 
分 节 中 发 送 SYN 和 对 客户 SYN 的 ACK (确认 ) ° 

(4) 客户 必须 确认 服务 器 的 SYN 。 

这 种 交换 至 少 需 要 3 个 分 组 ， 因 此 称 之 为 TCP 的 三 路 握手 (three-way 
handshake) 。 图 2-2 展 示 了 所 交换 的 3 个 分 和 。 


客户 服务 器 
Socket,bind,listen 
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connect ik [1] ACK K+] accept ik |E] 
read ([H3E) 


socket 


图 2-2 TCP 的 三 路 握手 

图 2-2 给 出 的 客户 的 初始 序列 号 为 J， 服 务 器 的 初始 序列 号 为 K。ACK 中 的 
确认 号 是 发 送 这 个 ACK 的 一 端 所 期 待 的 下 一 个 序列 号 。 因 为 SYN 占 据 一 个 字 
节 的 序列 号 空间 ， 所 以 每 一 个 SYN 的 ACK 中 的 确认 号 就 是 该 SYN 的 初始 序列 
号 加 1。 类 似 地 ， 每 一 个 FIN (表示 结束 ) 的 ACK 中 的 确认 号 为 该 FIN 的 序列 号 
加 1。 

建立 TCP 连 接 就 好 比 一 个 电话 系统 [Nemeth 1997] 。socket 函 数 等 同 于 有 
电话 可 用 。bind 画 数 是 在 告诉 别人 你 的 电话 号 码 ， 这 样 他 们 可 以 呼叫 你 。 
listen 芳 数 是 打开 电话 振 铃 ， 这 样 当 有 一 个 外 来 呼叫 到 达 时 ， 你 就 可 以 昕 到 。 
connect 函 数 要 求 我 们 知道 对 方 的 电话 号 码 并 拨打 它 。accept 函 数 发 生 在 被 呼叫 
的 人 应 答 电话 之 时 。 由 accept 返 回 客户 的 标识 〈 即 客户 的 也 地 址 和 端口 号 ) 类 
似 于 让 电话 机 的 呼叫 者 ID 功能 部 件 显示 呼叫 者 的 电话 号 码 。 人 然而 两 者 的 不 同 
之 处 在 于 accept 只 在 连接 建立 之 后 返回 客户 的 标识 ， 而 呼叫 者 ID 功能 部 件 却 在 
我 们 选择 应 答 或 不 应 答 电 话 之 前 显示 呼叫 者 的 电话 号 码 。 如 果 使 用 域名 系统 
DNS 〈 见 第 11 章 ) ， 它 就 提供 了 一 种 类 似 于 电话 短 的 服务 。getaddrinfo 类 似 于 
在 电话 短 中 查找 某 个 人 的 电话 号 码 ，getnameinfo 则 类 似 于 有 一 本 按照 电话 号 
码 而 不 是 按照 用 户 名 排序 的 电话 秒 。 

2.6.2 TCP 选 项 

每 一 个 SYN 可 以 含有 多 个 TCP 选 项 。 下 面 是 常用 的 TCP 选 项 。 

MSS 选 项 。 发 送 SYN 的 TCP 一 端 使 用 本 选项 通告 对 端 它 的 最 大 分 和 大 小 

(maximum segment size) 即 MSS， 也 就 是 它 在 本 连接 的 每 个 TCP 分 节 中 愿意 

接受 的 最 大 数据 量 。 发 送 端 TCP 使 用 接收 端的 MSS 值 作为 所 发 送 分 节 的 最 大 大 


小 。 我 们 将 在 7.9 节 看 到 如 何 使 用 TCP_MAXSEG 套 接 字 选项 提取 和 设置 这 个 
TCP 选 项 。 

窗口 规模 选项 。TCP 连 接任 何 一 端 能 够 通告 对 端的 最 大 窗口 大 小 是 
65535， 因 为 在 TCP 首 部 中 相应 的 字段 占 16 位 。 然 而 当今 因特网 上 业已 普及 的 
高 速 网 络 连 接 (45 Mbit/s 或 更 快 ， 如 RFC 1323 |Jacobson, Braden, and Borman 
1992] 所 述 ) 或 长 延迟 路 径 (卫星 链 路 ) 要 求 有 更 大 的 窗口 以 获得 尽 可 能 
的 吞吐 量 。 这 个 新 选项 指定 TCP 首 部 中 的 通告 窗口 必须 扩大 ( 即 左 移 ) 的 位 数 

(0-14) ， 因 此 所 提供 的 最 大 窗口 接近 1 GB (65535x214) 。 在 一 个 TCP 连 
接 上 使 用 窗口 规模 的 前 提 是 它 的 两 个 端 系统 必须 都 支持 这 个 选项 。 我 们 将 在 
7.5 节 看 到 如 何 使 用 SO_RCVBUF 套 接 字 选项 影响 这 个 TCP 选 项 。 

为 提供 与 不 支持 这 个 选项 的 较 早 实现 间 的 互 操作 性 ， 需 应 用 如 下 规则 。 
TCP 可 以 作为 主动 打开 的 部 分 内 容 随 它 的 SYN 发 送 该 选项 ， 但 是 只 在 对 端 也 随 
它 的 SYN 发 送 该 选项 的 前 提 下 ， 它 才能 扩大 自己 窗口 的 规模 。 类 似 地 ， 服 务 
器 的 TCP 只 有 接收 到 随 客 户 的 SYN 到 达 的 该 选项 时 ， 才 能 发 送 该 选项 。 本 逻辑 
假定 实现 忽略 它们 不 理解 的 选项 ， 如 此 忽略 是 必需 的 要 求 ， 也 已 普遍 满足 ， 
但 无 法 保证 所 有 实现 都 满足 此 要 求 。 

时 间 惟 选项 。 这 个 选项 对 于 高 速 网 络 连 接 是 必要 的 ， 它 可 以 防止 由 失 而 
复 现 的 分 组 [11] 可 能 造成 的 数据 损坏 。 它 是 一 个 较 新 的 选项 ， 也 以 类 似 于 窗 
口 规模 选项 的 方式 协商 处 理 。 作 为 网 络 编程 人 员 ， 我 们 无 需 考 虑 这 个 选项 。 

TCP 的 大 多 数 实 现 都 文 持 这 些 常 用 选项 。 后 两 个 选项 有 时 称 为 *RFC 1323 
选项 *， 因 为 它们 是 在 RFC 1323 |Jacobson, Braden, and Borman 1992] 中 说 明 
的 。 既 然 高 带宽 或 长 延迟 的 网 络 被 称 为 “长 胖 管道 ” (long fat pipe) ， 这 两 个 
选项 也 称 为 “长 胖 管道 选项 ”。TCPv1 的 第 24 章 对 这 些 选 项 有 详细 的 叙述 e 

2.6.3 TCP 连 接 终止 

TCP 建 立 一 个 连接 需 3 个 分 节 ， 终 止 一 个 连接 则 需 4 个 分 节 。 

(1) 某 个 应 用 进程 首先 调用 close ， 我 们 称 该 端 执行 主动 关闭 (active 
close) 。 该 端的 TCP 于 是 发 送 一 个 FIN 分 节 ， 表 示 数 据 发 送 完毕 。 

(2) 接收 到 这 个 FIN 的 对 端 执行 被 动 关 闭 (passive close) 。 这 个 FIN 由 TCP 
确认 。 它 的 接收 也 作为 一 个 文件 结束 符 (end-of-file) 传递 给 接收 端 应 用 进程 


〈 放 在 已 排队 等 候 该 应 用 进程 接收 的 任何 其 他 数据 之 后 ) ， 因 为 FIN 的 接收 意 

味 着 接收 端 应 用 进程 在 相应 连接 上 再 无 额外 数据 可 接收 。 

(3) 一 段 时 间 后 ， 接 收 到 这 个 文件 结束 符 的 应 用 进程 将 调用 close 关 闭 它 的 
套 接 字 。 这 导致 它 的 TCP 也 发 送 一 个 FIN ° 

(4) 接收 这 个 最 终 FIN 的 原 发 送 端 TCP 〈 即 执行 主动 关闭 的 那 一 端 ) 确认 这 
个 FIN ° 

既然 每 个 方向 都 需要 一 个 FIN 和 一 个 ACK， 因 此 通常 需要 4 个 分 节 。 我 们 
使 用 限定 词 “ 通 和 常 * 是 因为 ， 某 些 情形 下 步 又 1 的 FIN 随 数据 一 起 发 送 ， 男 外 ， 
步骤 2 和 步骤 3 发 送 的 分 蔬 都 出 自 执行 被 动 关闭 那 一 端 ， 有 可 能 被 合并 成 一 个 
分 节 。 图 2-3 展 示 了 这 些 分 组 。 


客户 服务 器 
ME. FIN M (被 动 关闭 ) 
(主动 关闭 ) rea diB Fló 


图 2-3 TCP 连 接 关 闭 时 的 分 组 交换 

类 似 SYN， 一 个 FIN 也 占据 1 个 字 节 的 序列 号 空间 。 因 此 ， 每 个 FIN 的 ACK 
确认 号 就 是 这 个 FIN 的 序列 号 加 1。 

在 步骤 2 与 步骤 3 之 间 ， 从 执行 被 动 关闭 一 端 到 执行 主动 关闭 一 端 流动 数 
据 是 可 能 的 。 这 称 为 半 关 闭 (half-close) ， 我 们 将 在 6.6 节 随 shutdown 函 数 再 
详细 介绍 。 

当 套 接 字 被 关闭 时 ， 其 所 在 端 TCP 各 自发 送 了 一 个 FIN。 我 们 在 图 中 指 
出 ， 这 是 由 应 用 进程 调用 close 而 发 生 的 ， 不 过 需 认 识 到 ， 当 一 个 Unix 进 程 无 
论 自 愿 地 (调用 exit 或 从 main 画 数 返回 ) 还 是 非 自 愿 地 〈 收 到 一 个 终止 本 进程 


的 信号 ) 终止 时 ， 所 有 打开 的 描述 符 都 被 关闭 ， 这 也 导致 仍然 打开 的 任何 TCP 
连接 上 也 发 出 一 个 FIN © 

图 2-3 展 示 了 客户 执行 主动 关闭 的 情形 ， 不 过 我 们 指出 ， 无 论 是 客户 还 是 
服务 器 ， 任 何 一 端 都 可 以 执行 主动 关闭 。 通 常情 况 是 客户 执行 主动 关闭 ， 但 
是 某 些 协议 〈 璧 如 值得 注意 的 HITP/1.0) 却 由 服务 器 执行 主动 关闭 。 

2.6.4 TCP 状 态 转 换 图 

TCP 涉 及 连接 建立 和 连接 终止 的 操作 可 以 用 状态 转换 图 (state transition 
diagram) 来 说 明 ， 如 图 2-4 所 示 。 

TCP 为 一 个 连接 定义 了 11 种 状态 ， 并 且 TCP 规 则 规定 如 何 基 于 当前 状态 及 
在 该 状态 下 所 接收 的 分 节 从 一 个 状态 转换 到 另 一 个 状态 。 举 例 来 说 ， 当 某 个 
应 用 进程 在 CLOSED 状 态 下 执行 主动 打开 时 ，TCP 将 发 送 一 个 SYN， 且 新 的 状 
态 是 SYN_SENT。 如果 这 个 TCP 接 着 接收 到 一 个 市 ACK 的 SYN， 它 将 发 送 一 
个 ACK， 且 新 的 状态 是 ESTABLISHED“。 这 个 最 终 状 态 是 绝 大 多 数 数据 传送 发 
生 的 状态 。 

目 ESTABLISHED 状 态 引 出 的 两 个 第 头 处 理 连接 的 终止 。 如 果 某 个 应 用 进 
程 在 接收 到 一 个 FIN 之 前 调用 close (主动 关闭 )  ， 那 束 转 换 到 FIN_WAIT_1 状 
态 。 但 如 果 某 个 应 用 进程 在 ESTABLISHED 状 态 期 间接 收 到 一 个 FIN (被 动 关 
HD ， 那 就 转换 到 CLOSE_WAIT 状 态 。 

我 们 用 粗 实 线 表示 通常 的 客户 状态 转换 ， 用 粗 虚 线 表示 通常 的 服务 器 状 
态 转 换 。 图 中 还 注 明 存在 两 个 我 们 未 曾 讨论 的 转换 一 个 为 同时 打开 

(simultaneous open) ， 发 生 在 两 端 几乎 同时 发 送 SYN 并 且 这 两 个 SYN 在 网 络 

中 交错 的 情形 下 ， 另 一 个 为 同时 关闭 (simultaneous close) ， 发 生 在 两 端 几乎 
同时 发 送 FIN 的 情形 下 。TCPv1 的 第 18 章 中 有 这 两 种 情况 的 例子 和 讨论 ， 它 们 
是 可 能 发 生 的 ， 不 过 非常 罕见 。 

展示 状态 转换 图 的 原因 之 一 是 给 出 11 种 TCP 状 态 的 名 称 。 这 些 状 态 可 使 用 
netstat 显 示 ， 它 是 一 个 在 调试 客户 /服务 器 应 用 时 很 有 用 的 工具 。 我 们 将 在 第 5 
章 中 使 用 netstat 去 监视 状态 的 变化 。 
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图 2-4 TCP 状 态 转换 


2.6.5 观察 分 组 
图 2-5 展 示 一 个 完整 的 TCP 连 接 所 发 生 的 实际 分 组 交换 情况 ， 包 括 连 接 建 
立 、 数 据 传送 和 连接 终止 3 个 阶段 。 图 中 还 展示 了 每 个 端点 所 历经 的 TCP 状 


AX o 


IOS 


本 例 中 的 客户 通告 一 个 值 为 536 的 MSS (表明 该 客户 只 实现 了 最 小 重组 组 
冲 区 大 小 ) ， 服 务 器 通告 一 个 值 为 1460 的 MSS (以 太 网 上 IPv4 的 典型 值 ) 。 
不 同方 向 上 MSS 值 不 相同 不 成 问题 (见习 题 2.5) 。 


客户 服务 器 
Socket, bind,listen 
socket LISTEN ( 被 动 打开 ) 
connect ( [H 3€ ) SYN J, MSS = 536 accept (PH ) 


(主动 打开 ) SYN SENT 


SYN K, ACK J+1, MSS = 1460 
ESTABLISHED 


SYN_RCVD 


connect 返回 
ESTABLISHED 
< 客户 构造 请 求 > accept 返回 
write 数据 ( 请求 ) read( PH3E ) 


d ae - 
read( PHZ ) read( 退回 ) 


< 服务 器 处 理 请 求 > 


read( 阻塞 ) 
read( 返回 ) 


close 


(主动 关闭 FIN WAIT 1 CLOSE_WAIT( 被 动 关闭 ) 


read jK]|u|0 
FIN_WAIT_2 
close 


TIME_WAIT LAST_ACK 


CLOSED 


图 2-5 TCP 连 接 的 分 组 交换 


一 旦 建立 一 个 连接 ， 客 户 就 构造 一 个 请 求 并 发 送 给 服务 器 。 这 里 我 们 假 
设 该 请 求 适合 于 单个 TCP 分 节 ( 即 请 求 大 小 小 于 服务 器 通告 的 值 为 1460 字 市 的 
MSS) 。 服 务 器 处 理 该 请 求 并 发 送 一 个 应 答 ， 我 们 假设 该 应 答 也 适合 于 单个 
分 市 (本 例 即 小 于 536 字 节 ) 。 图 中 使 用 粗 箭头 表示 这 两 个 数据 分 节 。 注 意 ， 
服务 器 对 客户 请 求 的 确认 是 伴随 其 应 管 发 送 的 。 这 种 做 法 称 为 撒 市 
(piggybacking) ， 它 通常 在 服务 器 处 理 请 求 并 产生 应 答 的 时 间 少 于 200 ms 时 


发 生 。 如 果 服 务 器 耗 用 更 长 时 间 ， 璧 如 说 1s， 那 么 我 们 将 看 到 先是 确认 后 是 
应 答 。 (〈TCP 数 据 流 机 理 在 TCPv1 的 第 19 章 和 第 20 章 中 详细 叙述 。) 

图 中 随后 展示 的 是 终止 连接 的 4 个 分 节 。 注 意 ， 执 行 主动 关闭 的 那 一 端 

(本 例子 中 为 客户 ) 进入 我 们 将 在 下 一 节 中 讨论 的 TIME_WAIT 状 态 。 

图 2-5 中 值得 注意 的 是 ， 如 果 该 连接 的 整个 目的 仅仅 是 发 送 一 个 单 分 节 的 
请 求 和 接收 一 个 单 分 节 的 应 答 ， 那 么 使 用 TCP 有 8 个 分 节 的 开销 。 如 果 改 用 
UDP， 那 么 只 需 交 换 两 个 分 组 : 一 个 承载 请 求 ， 一 个 承载 应 答 。 然 而 从 TCP 切 
换 到 UDP 将 丧失 TCP 提 供给 应 用 进程 的 全 部 可 靠 性 ， 迫 使 可 靠 服务 的 一 大 堆 细 
节 从 传输 层 (TCP) 转移 到 UDP 应 用 进程 。TCP 提 供 的 另 一 个 重要 特性 即 拥塞 
控制 也 必须 由 UDP 应 用 进程 来 处 理 。 尽 管 如 此 ， 我 们 仍然 需要 知道 许多 网 络 
应 用 是 使 用 UDP 构建 的 ， 因 为 它们 需要 交换 的 数据 量 较 少 ， 而 UDP 避免 了 TCP 
连接 建立 和 终止 所 需 的 开销 。 


27 TIME, WAIT 状态 


室 无 疑问 ，TCP 中 有 关 网 络 编程 最 不 容易 理解 的 是 它 的 TIME_WAIT 状 
态 。 在 图 2-4 中 我 们 看 到 执行 主动 关闭 的 那 端 经 历 了 这 个 状态 。 该 端点 停留 在 
这 个 状态 的 持续 时 间 是 最 长 分 节 生 命 期 (maximum segment lifetime, MSL) 
的 两 倍 ， 有 时候 称 之 为 2MSL 。 

任何 TCP 实 现 都 必须 为 MSL 选 择 一 个 值 。RFC 1122 [Braden 1989] AY 
议 值 是 2 分 钟 ， 不 过 源 自 Berkeley 的 实现 传统 上 改 用 30 秒 这 个 值 。 这 意味 着 
TIME_WAIT 状 态 的 持续 时 间 在 1 分 钟 到 4 分 钟 之 间 。MSL 是 任何 IP 数 据 报 能 够 
在 因特网 中 存活 的 最 长 时 间 。 我 们 知道 这 个 时 间 是 有 限 的 ， 因 为 每 个 数据 报 
含有 一 个 称 为 跳 限 (hop limit) 的 8 位 字段 〈 见 图 A-1 中 IPv4 的 TIL 字 段 和 图 A- 
2 中 IPv6 的 跳 限 字段 ) ， 它 的 最 大 值 为 255。 尽 管 这 是 一 个 跳 数 限制 而 不 是 真 
正 的 时 间 限 制 ， 我 们 仍然 假设 : 具有 最 大 跳 限 (255) 的 分 组 在 网 络 中 存在 的 
时 间 不 可 能 超过 MSL 秒 。 

分 组 在 网 络 中 “迷途 ”通常 是 路 由 异常 的 结果 。 某 个 路 由 器 朋 溃 或 某 两 个 
路 由 器 之 间 的 某 个 链 路 断 开 时 ， 路 由 协议 需 花 数秒 钟 到 数 分 钟 的 时 间 才 能 稳 
定 并 找 出 另 一 条 通路 。 在 这 段 时 间 内 有 可 能 发 生路 由 循环 〈 路 由 器 A 把 分 组 发 


送 给 路 由 器 B， 而 B 再 把 它们 发 送 回 A) ， 我 们 关心 的 分 组 可 能 就 此 陷入 这 样 
的 循环 。 假 设 迷途 的 分 组 是 一 个 TICP 分 下 ， 在 它 迷 途 期 间 ， 发 送 端 TCP 超 时 并 
重 传 该 分 组 ， 而 重 传 的 分 组 却 通过 某 条 候选 路 径 到 达 最 终 目 的 地 。 然 而 不 久 
后 〈 自 迷途 的 分 组 开始 其 旅程 起 最 多 MSL 秒 以 内 ) 路 由 循环 修复 ， 早 先 迷 失 
在 这 个 循环 中 的 分 组 最 终 也 被 送 到 目的 地 。 这 个 原来 的 分 组 称 为 迷途 的 重复 
分 组 (lost duplicate) 或 漫游 的 重复 分 组 (wandering duplicate) 。TCP 必 须 正 
确 处 理 这 些 重复 的 分 组 。 

TIME_WAIT 状 态 有 两 个 存在 的 理由 : 

(1) 可 靠 地 实现 TCP 全 双 工 连接 的 终止 ; 

(2) 允许 老 的 重复 分 节 在 网 络 中 消逝 。 

第 一 个 理由 可 以 通过 查看 图 2-5 并 假设 最 终 的 ACK 丢 失 了 来 解释 。 服 务 器 
将 重新 发 送 它 的 最 终 那 个 FIN， 因 此 客户 必须 维护 状态 信息 ， 以 允许 它 重 新 发 
送 最 终 那 个 ACK。 要 是 客户 不 维护 状态 信息 ， 它 将 响应 以 一 个 RST 〈 另 外 一 
种 类 型 的 TCP 分 节 ) ， 该 分 节 将 被 服务 器 解释 成 一 个 错误 。 如 果 TCP 打 算 执 行 
所 有 必要 的 工作 以 彻底 终止 某 个 连接 上 两 个 方向 的 数据 流 〈 即 全 双 工 天 
MH) ， 那 么 它 必 须 正 确 处 理 连 接 终止 序列 4 个 分 节 中 任何 一 个 分 节 丢 失 的 情 
况 。 本 例子 也 说 明了 为 什么 执行 主动 关闭 的 那 一 端 是 处 于 TIME_WAIT 状 态 的 
那 一 端 : 因为 可 能 不 得 不 重 传 最 终 那 个 ACK 的 就 是 那 一 端 。 

为 理解 存在 TIME_WAIT 状 态 的 第 二 个 理由 ， 我 们 假设 在 12.106.32.254 的 
1500 端 口 和 206.168.112.219 的 21 端 口 之 间 有 一 个 TCP 连 接 。 我 们 关闭 这 个 连 
接 ， 过 一 段 时 间 后 在 相同 的 人 P 地 址 和 端口 之 间 建 立 男 一 个 连接 。 后 一 个 连接 
称 为 前 一 个 连接 的 化 身 (incarnation) ， 因 为 它们 的 IP 地 址 和 端口 号 都 相同 。 
TCP 必 须 防 止 来 自 某 个 连接 的 老 的 重复 分 组 在 该 连接 已 终止 后 再 现 ， 从 而 被 误 
解 成 属于 同一 连接 的 某 个 新 的 化 映 。 为 做 到 这 一 点 ，TCP 将 不 给 处 于 
TIME_WAIT 状 态 的 连接 发 起 新 的 化 身 。 既 然 TIME_WAIT 状 态 的 持续 时 间 是 
MSL 的 2 倍 ， 这 就 足以 让 某 个 方向 上 的 分 组 最 多 存活 MSL 秒 即 被 丢弃 ， 另 一 个 
方向 上 的 应 答 最 多 存活 MSL 秒 也 被 丢弃 。 通 过 实施 这 个 规则 ， 我 们 就 能 保证 
每 成 功 建立 一 个 TCP 连 接 时 ， 来 自 该 连接 先前 化 身 的 老 的 重复 分 组 都 已 在 网 络 
中 消逝 了 。 


这 个 规则 存在 一 个 例外 : 如果 到 达 的 SYN 的 序列 号 大 于 前 一 化 身 的 结束 
序列 号 ， 源 自 Berkeley 的 实现 将 给 当前 处 于 TIME_WAIT 状 态 的 连接 启动 新 的 
化 届 。TCPv2 第 958 一 959 页 对 这 种 情况 有 详细 的 竹 述 。 它 要 求 服务 器 执行 主动 
关闭 ， 因 为 接收 下 一 个 SYN 的 那 一 端 必须 处 于 TIME_WAIT 状 态 。rsh 命 令 具 备 
这 种 能 力 。RFC 1185 |Jacobson, Braden, and Zhang 1990] 讲述 了 有 关 这 种 情 
形 的 一 些 陷 阱 。 


2.8 SCTP 建立 和 终止 


与 TCP 一 样 ，SCTP 也 是 面向 连接 的 ， 因 而 也 有 关联 的 建立 与 终止 的 握手 
过 程 。 不 过 SCTP 的 握手 过 程 不 同 于 TCP， 我 们 在 此 加 以 说 明 。 

2.8.1 四 路 握手 

建立 一 个 SCTP 关 联 的 时 候 会 发 生 下 述 情 形 〈 类 似 于 TCP) > 

(1) 服务 器 必须 准备 好 接受 外 来 的 关联 。 这 通常 通过 调用 socket、bind 和 
listen 这 3 个 函数 来 完成 ， 称 为 被 动 打开 。 

(2) 客户 通过 调用 connect 或 者 发 送 一 个 隐 式 打开 该 关联 的 消息 进行 主动 打 
开 。 这 使 得 客户 SCTP 发 送 一 个 INIT 消 息 (初始 化 ) ， 该 消息 告诉 服务 器 客户 
的 IP 地 址 清单 、 初 始 序 列 号 、 用 于 标识 本 关联 中 所 有 分 组 的 起 始 标 记 、 客 户 
请 求 的 外 出 流 的 数目 以 及 客户 能 够 支持 的 外 来 流 的 数目 。 

(3) 服务 器 以 一 个 INIT ACK 消 息 确认 客户 的 INIT 消 息 ， 其 中 舍 有 服务 器 的 
IP 地 址 清单 、 初 始 序 列 号 、 起 始 标记 、 服 务 器 请 求 的 外 出 流 的 数目 、 服 务 器 
能 够 支持 的 外 来 流 的 数目 以 及 一 个 状态 cookie。 状 态 cookie 包 含 服务 器 用 于 确 
信 本 关联 有 效 所 需 的 所 有 状态 ， 它 是 数字 化 签名 过 的 ， 以 确保 其 有 效 性 。 

(4) 客户 以 一 个 COOKIE ECHO 消 息 回 射 服务 器 的 状态 cookie。 除 COOKIE 
ECHO 外 ， 该 消息 可 能 在 同一 个 分 组 中 还 捆绑 了 用 户 数据 。 

(5) 服务 器 以 一 个 COOKIE ACK 消 息 确 认 客 户 回 射 的 cookie 是 正确 的 ， 本 
关联 于 是 建立 。 该 消息 也 可 能 在 同一 个 分 组 中 还 捆绑 了 用 户 数据 。 

以 上 交换 过 程 至 少 需要 4 个 分 组 ， 因 此 称 之 为 SCTP 的 四 路 握手 (four-way 
handshake) 。 图 2-6 展 示 了 这 4 个 分 节 。 


客户 服务 器 


socket, bind, listen 
(被 动 打 开 ) 
accept ([H3E) 


Socket 
connect ( [-H 3€ ) 


(主动 打开 ) 


INIT (Ta,)) 
ieC 
Ta:INIT ACK (Tz,K,cookie ) 
T». 
Z:COOKIE ECHO c 
accept ik [Al 


Ta:COOKIE ACK read (阻塞 ) 


connect 返 加 


图 2-6 SCTP 的 四 路 握手 


SCTP 的 四 路 握手 在 很 多 方面 类 似 于 TCP 的 三 路 握手 ， 差 别 主要 在 于 作为 
SCTP 整 体 一 部 分 的 cookie 的 生成 。INIT ( 随 其 众多 参数 一 道 ) 承载 一 个 验证 
标记 Ta 和 一 个 初始 序列 号 J。 在 关联 的 有 效 期 内 ， 验 证 标记 Ta 必须 在 对 端 发 送 
的 每 个 分 组 中 出 现 。 初 始 序列 号 J 用 作 承 载 用 户 数据 的 DATA 块 的 起 始 序列 
号 。 对 端 也 在 INIT ACK 中 承载 一 个 验证 标记 Tz， 在 关联 的 有 效 期 内 ， 验 证 标 
记 Tz 也 必须 在 其 发 送 的 每 个 分 组 中 出 现 。 除 了 验证 标记 Tz 和 初始 序列 号 K 外 ， 
INIT 的 接收 端 还 在 作为 啊 应 的 INIT ACK 中 提供 一 个 cookie C。 该 cookie 包 含 设 
置 本 SCTP 关 联 所 需 的 所 有 状态 ， 这 样 服务 器 的 SCTP 栈 就 不 必 保存 所 关联 客户 
的 有 关 信 息 。SCTP 关 联 设 置 的 细节 参见 [Stewart and Xie 2001] 的 第 4 章 。 

四 路 握手 过 程 结 束 时 ， 两 端 各 自选 择 一 个 主 目的 地 址 (primary destination 
address) 。 当 不 存在 网 络 故 障 时 ， 主 目的 地 址 将 用 作 数 据 要 发 送 到 的 默认 目 
的 地 。 

在 SCTP 中 使 用 四 路 握手 是 为 了 避免 一 种 将 在 4.5 节 讨论 的 拒绝 服务 攻击 o 

SCTP 使 用 cookie 的 四 路 握手 定形 了 一 种 防护 这 种 攻击 的 方法 。TCP 的 许 
多 实现 也 使 用 类 似 的 方法 。 两 者 的 主要 差别 在 于 ，TCP 中 cookie 状 态 必 须 编 码 
到 只 有 32 位 长 的 初始 序列 号 中 。SCTP 为 此 提供 了 一 个 任意 长 度 的 字段 ， 并 且 
要 求实 施 基 于 加 密 的 安全 性 以 防护 攻击 。 

2.8.2 关联 终止 

SCTP 不 像 TCP 那 样 介 许 “ 半 关闭 ”的 关联 。 当 一 端 关 闭 某 个 关联 时 ， 男 一 
端 必须 停止 发 送 新 的 数据 。 关 联 关闭 请 求 的 接收 端 发 送 完 已 经 排队 的 数据 


(如 果 有 的 话 ) 后 ， 完 成 关联 的 关闭 。 图 2-7 展 示 了 这 一 交换 过 程 。 


客户 服务 器 
close SH UTDOWN 
(主动 关闭 ) (被 动 关闭 ) 
read 返回 0 
close 


图 2-7 SCTP 关 联 关 闭 时 的 分 组 交换 

SCTP 没 有 类 似 于 TCP 的 TIME_WAIT 状 态 ， 因 为 SCTP 使 用 了 验证 标记 。 
所 有 后 续 块 都 在 捆绑 它们 的 SCTP 分 组 的 公共 首部 标记 了 初始 的 INIT 块 和 INIT 
ACK 块 中 作为 起 始 标记 交换 的 验证 标记 ; 由 来 自 旧 连接 的 块 通过 所 在 SCTP 分 
组 的 公共 首部 间接 携带 的 验证 标记 对 于 新 连接 来 说 是 不 正确 的 。 因 此 ，SCTP 
通过 放置 验证 标记 值 就 避免 了 TCP 在 TIME_WAIT 状 态 保 持 整 个 连接 的 做 法 。 

2.8.3 SCTP 状 态 转换 图 

SCTP 涉 及 关联 建立 和 关联 终止 的 操作 可 以 用 状态 转换 图 (state transition 
diagram) 来 说 明 ， 如 图 2-8 所 示 。 

与 图 2-4 一 样 ， 本 状态 机 中 从 一 个 状态 到 另 一 个 状态 的 转换 由 SCTP 规 则 基 
于 当前 状态 及 在 该 状态 下 所 接收 的 块 规定 。 举 例 来 说 ， 当 某 个 应 用 进程 在 
CLOSED 状 态 下 执行 主动 打开 时 ，SCTP 将 发 送 一 个 INIT， 且 新 的 状态 是 
COOKIE-WAIT。 如 果 这 个 SCTP 接 着 接收 到 一 个 INIT ACK， 它 将 发 送 一 个 
COOKIE ECHO， 且 新 的 状态 是 COOKIE-ECHOED。 如 果 该 SCTP 随 后 接收 到 
一 个 COOKIE ACK， 它 将 转换 成 ESTABLISHED 状 态 。 这 个 最 终 状 态 是 绝 大 多 
数 数据 传送 发 生 点 的 状态 ， 尽 管 DATA 块 也 可 以 由 COOKIE ECHO +t Ek 
COOKIE ACK 块 所 在 消息 捆绑 撒 带 。 
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2-8 SCTP 状 态 转换 


发 送 : COOKIE ECHO 
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接收 : INIT ACK 


COOKIE- 
ECHOED 


SHUTDOWN- 


RECEIVED 


不 再 有 未 决 数据 


接 


ACK-SENT COMPLETE 


SHUTDOWN-| SHUTDOWN 


发 送 : SHUTDOWN 
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从 ESTABLISHED 状 态 引出 的 两 个 箭头 处 理 关 联 的 终止 。 如 果 某 个 应 用 进 
程 在 接收 到 一 个 SHUTDOWN 之 前 调用 close (主动 关闭 ) ， 那 就 转换 到 
SHUTDOWN-PENDING 状 态 。 否 则 ， 如 果菜 个 应 用 进程 在 ESTABLISHED 状 


态 期 间接 收 到 一 个 SHUTDOWN (被 动 关 闭 ) ， 那 就 转换 到 SHUTDOWN- 
RECEIVED 状 态 。 


2.8.4 观察 分 组 

图 2-9 展 示 一 个 作为 样 例 的 SCTP 关 联 所 发 生 的 实际 分 组 交换 情况 ， 包 括 关 
联 建立 、 数 据 传送 和 关联 终止 3 个 阶段 。 图 中 还 展示 了 每 个 端点 所 历经 的 
SCTP 状 态 。 
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图 2-9 SCTP 关 联 中 的 分 组 交换 


本 例 中 ， 客 户 在 COOKIE ECHOÏ Br 4E 2 48 PR T BUS — T1 DATA 


connectjk [ul 
ESTABLISHED 


块 ， 服 务 器 则 在 作为 应 答 的 COOKIE ACKER PEO FH T ACH > — A 
言 ， 当 网 络 应 用 采用 一 到 多 接口 式样 时 (我 们 将 在 9.2 节 中 讨论 一 到 一 和 一 到 
多 这 两 种 接口 式样 ) ，COOKIE ECHO 通 常 撒 带 一 个 或 多 个 DATA 块 。 


天 


SCTP 分 组 中 信息 的 单位 称 为 块 (chunk) 。 块 是 自 描述 的 ， 包 含 一 个 块 类 


型 、 若 干 个 块 标记 和 一 个 块 长 度 。 这 样 做 方便 了 多 个 块 的 关 强 ， 只 要 把 它们 


简单 地 组 合 到 一 个 SCTP 外 出 消息 中 ( [Stewart and Xie 2001] 的 第 5 章 给 出 了 
块 捆绑 和 常规 数据 传输 过 程 的 细节 ) 。 

2.8.5 SCTP 选 项 

SCTP 使 用 参数 和 块 方 便 增设 可 选 特性 。 新 的 特性 通过 添加 这 两 个 条 目 之 
一 加 以 定义 ， 并 允许 通常 的 SCTP 处 理 规则 汇报 未 知 的 参数 和 未 知 的 块 。 参 数 
类 型 字段 和 块 类 型 字段 的 高 两 位 指明 SCTP 接 收 端 该 如 何 处 置 未 知 的 参数 或 未 
知 的 块 ( [Stewart and Xie 2001] 的 3.1 节 给 出 了 更 多 的 细节 ) > 

当前 如 下 两 个 对 SCTP 的 扩展 正在 开发 中 。 

(1) 动态 地 址 扩展 ， 人 允许 协作 的 SCTP 端 点 从 已 有 的 某 个 关联 中 动态 增删 IP 
HEHE e 

(2) 不 完全 可 靠 性 扩展 ， 人 允许 协作 的 SCTP 端 点 在 应 用 进程 的 指导 下 限制 数 
据 的 重 传 。 当 一 个 消息 变 得 过 于 陈旧 而 无 须发 送 时 (按照 应 用 进程 的 指 
导 ) ， 该 消息 将 被 跳 过 而 不 再 发 送 到 对 端 。 这 意味 着 不 是 所 有 数据 都 确保 到 
达 关 联 的 另 一 端 。 


2.9 端口 号 


任何 时 候 ， 多 个 进程 可 能 同时 使 用 TCP、UDP 和 SCTP 这 3 种 传输 层 协 议 中 
的 任何 一 种 。 这 3 种 协议 都 使 用 16 位 整数 的 端口 号 (port number) 来 区 分 这 些 
进程 。 

当 一 个 客户 想 要 跟 一 个 服务 器 联系 时 ， 它 必须 标识 想 要 与 之 通信 的 这 个 
服务 器 。TCP、UDP 和 SCTP 定 义 了 一 组 众所周知 的 端口 (well-known port) , 
用 于 标识 众所周知 的 服务 。 举 例 来 说 ， 文 持 FTP 的 任何 TCP/IP 实 现 都 把 21 这 个 
众所周知 的 端口 分 配给 FIP 服务器。 分 配给 简化 文件 传送 协议 (Trivial File 
Transfer Protocol, TFTP) 的 是 UDP 端口 号 69。 

另 一 方面 ， 客 户 通常 使 用 短期 存活 的 临时 端口 (ephemeral port) 。 这 些 
端口 号 通常 由 传输 层 协 议 目 动 赋予 客户 。 客 户 通常 不 关心 其 临时 端口 的 具体 
值 ， 而 只 需 确 信 该 端口 在 所 在 主机 中 是 唯一 的 就 行 。 传 输 协议 的 代码 确保 这 
种 唯一 性 。 


IANA (the Internet Assigned Numbers Authority， 因 特 网 已 分 配 数值 权威 
机 构 ) 维护 着 一 个 端口 号 分 配 状况 的 清单 。 该 清单 一 度 作 为 RFC 多 次 发 布 ; 
RFC 1700 | Reynolds and Postel 1994] 是 这 个 系列 的 最 后 一 个 。RFC 3232 

[ Reynolds 2002 | 给 出 了 替代 REFC 1700 40 Æ £ Zi dg EN fr 
http://www.iana.org/ > i ERI aT BELA F3EX > 

(1) 众所周知 的 端口 为 0 一 1023。 这 些 端口 由 IANA 分 配 和 控制 。 可 能 的 
话 ， 相 同 端口 号 就 分 配给 TCP、UDP 和 SCTP 的 同一 给 定 服务 。 例 如 ， 不 论 
TCP 还 是 UDP 端 口号 80 都 被 赋予 Web 服 务 器 ， 尽 管 它 目 前 的 所 有 实现 都 单纯 使 
用 TCP。 

端口 号 80 分 配 时 SCTP 尚 不 存在 。 新 的 端口 分 配 将 针对 这 3 种 协议 执行 ， 
REC 2960 则 声明 所 有 现 有 的 TCP 端 口号 对 于 使 用 SCTP 的 同一 服务 同样 有 效 。 

(2) 已 登记 的 端口 (registered port) 为 1024~-49151。 这 些 端口 不 受 IANA 
控制 ， 不 过 由 IANA 登记 并 提供 它们 的 使 用 情况 清单 ， 以 方便 整个 群体 。 可 能 
的 话 ， 相 同 端口 号 也 分 配给 TCP 和 UDP 的 同一 给 定 服务 。 例 如 ，6000~-6063 分 
配给 这 两 种 协议 的 X Window 服 务 器 ， 尽 管 它 的 所 有 实现 当前 单纯 使 用 TCP。 
49151 这 个 上 限 的 引入 是 为 了 给 临时 端口 留 出 范围 ， 而 REFC 1700 [Reynolds 
and Postel 1994] 所 列 的 上 限 为 65535。 

(3) 49152~ 655352 DASA (dynamic) 或 私 用 的 (private) wO ° IANA 
不 管 这 些 端口 。 它 们 惑 是 我 们 所 称 的 临时 端口 。 (49152 这 个 魔 数 是 65536 的 
四 分 之 三 。) 

图 2-10 展 示 了 端口 号 的 划分 情况 和 常见 的 分 配 情况 。 

我 们 要 注意 图 2-10 中 以 下 几 点 。 

Unix 系 统 有 保留 端口 (reserved port) 的 概念 ， 指 的 是 小 于 1024 的 任何 端 
口 。 这 些 端 口上 只 能 赋予 特权 用 户 进程 的 套 接 字 。 所 有 IANA 众所周知 的 端口 都 
是 保留 端口 ， 分 配 使 用 这 些 端 口 的 服务 器 (例如 FTP 服 务 器 ) 必须 以 超级 用 户 
特权 启动 。 

由 于 历史 原因 ， 源 自 Berkeley 的 实现 (从 4.3BSD 开 始 ) 411024500078, 
图 内 分 配 临 时 端口 。 这 在 20 世 纪 80 年 代 初 期 是 可 行 的 ， 但 是 如 今 很 容易 就 找 
到 一 个 在 任何 给 定时 间 内 同时 支持 多 于 3977 个 连接 的 主机 。 于 是 许多 较 新 的 


系统 从 另外 的 范围 分 配 临时 端口 以 提供 更 多 的 临时 端口 ， 它 们 或 者 使 用 由 
IANA 定义 的 临时 端口 范围 ， 或 者 使 用 一 个 更 大 的 其 他 范围 “如 图 2-10 所 示 的 


Solaris) 。 


IANA IANA 动态 
众所周知 端口 IANA 注册 的 端口 或 私 用 端口 x 
1023 1024 49151 49152 65535 
BSD 保 留 端 口 BSD 临 时 端口 BSD 服 务 器 ( 非特 权 ) 
1 1023 1024 5000 5001 65535 
rresvport Solaris 临 时 端口 
rt 
513 1023 32768 65535 


图 2-10 端口 号 的 分 配 

由 于 这 个 原因 ， 许 多 较 早 的 系统 实现 的 临时 端口 范围 的 上 限 为 5 000。5 
000 这 个 上 限 后 来 发 现 是 一 个 排版 错误 [Borman 1997a] ， 本 应 该 是 50 000 ° 

有 少数 客户 〈 而 不 是 服务 器 ) 需要 一 个 保留 端口 用 于 客户 /服务 器 的 认 
UE: rlogin 和 Ish 客 户 就 是 常见 的 例子 。 这 些 客户 调用 库 函 数 rresvport 创 建 一 个 
TCP 套 接 字 ， 并 赋予 它 一 个 在 513 僵 1023 范 围 内 未 使 用 的 端口 。 该 函数 通常 先 
尝试 绑 定 端口 1023， 若 失败 则 尝试 1022， 依 次 类 推 ， 直 到 在 端口 513 上 亦 或 成 
功 ， 亦 或 失败 。 

ER: BSD 的 保留 端口 和 rresvport 函 数 都 跟 IANA 众 所 周知 端口 的 后 半 部 
分 重要 。 这 是 因为 IANA 众所周知 端口 早先 的 上 限 为 255。1992 年 的 RFC 1340 

(早先 的 一 个 “Assigned Numbers”RFC) 开始 在 256 一 1023 之 间 分 配 众所周知 

的 端口 。1990 年 的 RFC 1060 (更 早先 的 一 个 “Assigned Numbers"RFC) 称 256 
一 1023 之 间 的 端口 为 Unix 标 准 服务 (Unix Standard Services) 。20 世 纪 80 年 代 
有 不 少 源 自 Berkeley 的 服务 器 在 512 以 后 挑选 它们 的 众所周知 的 端口 ( 留 下 256 
~511 这 个 空 档 ) 。rresvport 函 数 选择 从 1023 开 始 往 下 寻找 ， 直 至 513 。 

套 接 字 对 

一 个 TCP 连 接 的 套 接 字 对 (socket pair) 是 一 个 定义 该 连接 的 两 个 端点 的 
四 元 组 :本 地 IP 地 址 、 本 地 TCP 端 口号 、 外 地 IP 地 址 、 外 地 TCP 端 口号 。 套 接 
字 对 唯一 标识 一 个 网 络 上 的 每 个 TCP 连 接 。 束 SCTP 而 言 ， 一 个 关联 由 一 组 本 


地 IP 地 址 、 一 个 本 地 端口 、 一 组 外 地 IP 地 址 、 一 个 外 地 端口 标识 。 在 两 个 端点 
均 非 多 宿 这 一 最 简单 的 情形 下 ，SCTP 与 TCP 所 用 的 四 元 组 套 接 字 对 一 致 。 然 
而 在 某 个 关联 的 任何 一 个 端点 为 多 宿 的 情形 下 ， 同 一 个 关联 可 能 需要 多 个 四 
元 组 标识 (这 些 四 元 组 的 IP 地 址 各 不 相同 ， 但 端口 号 是 一 样 的 ) 。 

标识 每 个 端点 的 两 个 值 (IP 地 址 和 端口 号 ) 通常 称 为 一 个 套 接 字 。 

我 们 可 以 把 套 接 字 对 的 概念 扩展 到 UDP， 即 使 UDP 是 无 连接 的 。 当 讲解 
套 接 字 函数 (bind、connect、getpeername 等 ) 时 ， 我 们 将 指明 它们 在 指定 套 
接 字 对 中 的 哪些 值 。 举 例 来 说 ，bind 函 数 要 求 应 用 程序 给 TCP、UDP 或 SCTP 
套 接 字 指 定 本 地 IP 地 址 和 本 地 端口 号 。 


2.10 TCP 端 口号 与 并 发 服务 器 


并 发 服务 器 中 主 服务 器 循环 通过 派生 一 个 子 进程 来 处 理 每 个 新 的 连接 。 
如 果 一 个 子 进程 继续 使 用 服务 器 众所周知 的 端口 来 服务 一 个 长 时 间 的 请 求 ， 
那 将 发 生 什么 ? 让 我 们 来 看 一 个 典型 的 序列 。 首 先 ， 在 主机 freebsd 上 启动 服 
务 器 ， 该 主机 是 多 宿 的 ， 其 IP 地 址 为 12.106.32.254 和 192.168.42.1。 服务器 在 
它 的 众所周知 的 端口 (本 例 为 21) 上 执行 被 动 打开 ， 从 而 开始 等 待 客户 的 请 
求 ， 如 图 2-11 所 示 。 


12.106.32.254 
192.168.42.1 


= 
pde 
x 
Az 
uz 


(*:21, *:*] 一 一 一 > 监听 套 接 字 


图 2-11 TCP 服 务 器 在 端口 21 上 执行 被 动 打 开 

我 们 使 用 记号 {*:21, *:*} 指 出 服务 器 的 套 接 字 对 。 服 务 器 在 任意 本 地 接口 

(第 一 个 星 号 ) 的 端口 21 上 等 待 连接 请 求 。 外 地 IP 地 址 和 外 地 端口 都 没有 指 
定 ， 我 们 用 “*.*” 来 表示 。 我 们 称 它 为 监听 套 接 字 (listening socket) ° 


我 们 用 分 号 来 分 割 卫 地 址 和 端口 号 ， 因 为 这 是 HITP 的 用 法 ， 其 他 地 方 也 
常见 。netstat 程 序 使 用 点 号 来 分 割地 址 和 端口 号 ， 不 过 如 此 表示 有 时 候 会 让 
AGA, AAAS FER FQ (如 freebsd.unpbook.com.21) ， 也 用 于 IPv4 的 点 
分 十 进 制 数 记 法 (如 12.106.32. 254.21) 

这 里 指定 本 地 IP 地 址 的 星 号 称 为 通 配 (wildcard) 符 。 如 果 运 行 服务 器 的 
主机 是 多 宿 的 (如 本 例 ) ， 服 务 器 可 以 指定 它 只 接受 到 达 某 个 特定 本 地 接口 
的 外 来 连接 。 这 里 要 么 选 一 个 接口 要 么 选任 意 接口 。 服 务 器 不 能 指定 一 个 包 
含 多 个 地 址 的 清单 。 通 配 的 本 地 地 址 表示 “任意 ”这 个 选择 。 在 图 1-9 中 ， 通 配 
地 址 通过 在 调用 bind 之 前 把 套 接 字 地 址 结构 中 的 人 P 地 址 字段 设置 成 
INADDR_ANY 来 指定 。 

稍 后 在 IP 地 址 为 206.168.112.219 的 主机 上 启动 第 一 个 客户 ， 它 对 服务 器 的 
IP 地 址 之 一 12.106.32.254 执 行 主动 打开 。 我 们 假设 本 例 中 客户 主机 的 TCP 为 此 
选择 的 临时 端口 为 1500， 如 图 2-12 所 示 。 图 中 在 该 客户 的 下 方 标 出 了 它 的 套 接 
字 对 。 


12.106.32.254 
206.168.112.219 192.168.42.1 
q r 


= 
| 1 1 

| 到 12.106.32.254 端 口 | ERES 

i 客户 i —— A 

1 | 21 的 连接 请 求 

| | 


l 1 

(206.168.112.219:1500, | {*:21, *:*} 一 一 + 一 > 监听 套 接 字 
12.106.32.254:21) ! | | 
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图 2-12 客户 对 服务 器 的 连接 请 求 
当 服 务 器 接收 并 接受 这 个 客户 的 连接 时 ， 它 fork 一 个 自身 的 副本 ， 让 子 进 
程 来 处 理 该 客户 的 请 求 ， 如 图 2-13 所 示 。 (我 们 将 在 4.7 市 中 讲解 fork 画 数 。) 
至 此 ， 我 们 必须 在 服务 器 主机 上 区 分 监听 套 接 字 和 已 连接 套 接 字 
(connected socket) 。 注 意 已 连接 套 接 字 使 用 与 监听 套 接 字 相同 的 本 地 端口 
(21) 。 还 要 注意 在 多 宿 服 务 器 主机 上 ， 连 接 一 旦 建立 ， 已 连接 套 接 字 的 本 
地 地 址 〈12.106.32.254) 随即 填 入 。 
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图 2-13 并 发 服务 器 让 子 进程 处 理 客户 

下 一 步 我 们 假设 在 客户 主机 上 另 有 一 个 客户 请 求 连接 到 同一 个 服务 器 。 
客户 主机 的 TCP 为 这 个 新 客户 的 套 接 字 分 配 一 个 未 使 用 的 临时 端口 ， 壁 如 说 
1501， 如 图 2-14 所 示 。 服 务 器 上 这 两 个 连接 是 有 区 别 的 ， 第 一 个 连接 的 套 接 字 
对 和 第 二 个 连接 的 套 接 字 对 不 一 样 ， 因 为 客户 的 TCP 给 第 二 个 连接 选择 了 一 个 
未 使 用 的 端口 (1501) 。 
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图 2-14 第 二 个 客户 与 同一 个 服务 器 的 连接 
通过 本 例 应 注意 ，TCP 无 法 仅仅 通过 查看 目的 端口 号 来 分 离 外 来 的 分 节 到 
不 同 的 端点 。 它 必须 查看 套 接 字 对 的 所 有 4 个 元 素 才 能 确定 由 哪个 端点 接收 某 
个 到 达 的 分 节 。 图 2-14 中 对 于 同一 个 本 地 端口 (21) 存在 3 个 套 接 字 。 如 果 一 
个 分 节 来 自 206.168.112.219 端 口 1500， 目 的 地 为 12.106.32.254 端 口 21， 它 就 被 
递送 给 第 一 个 子 进 程 。 如 果 一 个 分 节 来 自 206.168.112.219 端 口 1501， 目 的 地 为 


12.106.32.254 端 口 21， 它 就 被 递送 给 第 二 个 子 进程 。 所 有 目的 端口 为 21 的 其 他 
TCP 分 节 都 被 递送 给 拥有 监听 套 接 字 的 最 初 那个 服务 器 〈 父 进程 ) 。 


2.11 缓冲 区 大 小 及 限制 


下 面 我 们 将 介绍 一 些 有 影响 IP 数 据 报 大 小 的 限制 。 我 们 首先 介绍 这 些 限 
制 ， 然 后 就 它们 如 何 影 响应 用 进程 能 够 传送 的 数据 进行 综合 分 析 。 

IPv4 数 据 报 的 最 大 大 小 是 65 535 字 节 ， 包 括 IPv4 首 部 。 这 是 因为 如 图 A-1 
所 示 其 总 长 度 字 段 占 据 16 位 。 

IPv6 数 据 报 的 最 大 大 小 是 65 575 字 有 ， 包 括 40 字 万 的 IPv6 首 部 。 这 是 因为 
如 图 A-2 所 示 其 净 荷 长 度 字 段 占 据 16 人 位。 注意 ，IPv6 的 净 荷 长 度 字 段 不 包括 
IPv6 首 部 ， 而 IPv4 的 总 长 度 字 段 包 括 IPv4 首 部 。 

IPV6 有 一 个 特大 净 集 (jumbo payload) 选项 ， 它 把 净 答 长度 字段 扩展 到 32 
位 ， 不 过 这 个 选项 需要 MTU (maximum transmission unit， 最 大 传输 单元 ) 超 
过 65 535 的 数据 链 路 提供 支持 。 (这 是 为 主机 到 主机 的 内 部 连接 而 设计 的 ， 壁 
如 HIPPI， 它 们 通常 没有 内 在 的 MTU。) 

许多 网 络 有 一 个 可 由 硬件 规定 的 MTU。 举例 来 说 ， 以 太 网 的 MTU 是 1500 
字 节 。 另 有 一 些 链 路 (例如 使 用 PPP 协 议 的 点 到 点 链 路 ) 其 MTU 可 以 人 为 配 
置 。 较 老 的 SLIP 链 路 通常 使 用 1006 字 节 或 296 字 节 的 MTU > 

IPv4 要 求 的 最 小 链 路 MTU 是 68 字 节 。 这 人 允许 最 大 的 IPv4 首 部 (包括 20 字 
节 的 固定 长 度 部 分 和 最 多 40 字 节 的 选项 部 分 ) 拼接 最 小 的 片段 (IPv4 首 部 中 
片段 偏 移 字段 以 8 个 字 节 为 单位 ) 。IPv6 要 求 的 最 小 链 路 MTU 为 1280 字 节 。 
IPv6 可 以 运行 在 MTU 人 小 于 此 最 小 值 的 链 路 上， 不 过 需要 特定 于 链 路 的 分 片 和 
重组 功能 ， 以 使 得 这 些 链 路 看 起 来 具有 至 少 为 1280 字 节 的 MTU (RFC 2460 

[Deering and Hinden 1998| ) 。 

在 两 个 主机 之 间 的 路 径 中 最 小 的 MTU 称 为 路 径 MTU (path MTU) ° 1500 
字 节 的 以 太 网 MTU 是 当今 常见 的 路 径 MTU。 两 个 主机 之 间 相 反 的 两 个 方向 上 
路 径 MTU 可 以 不 一 致 ， 因 为 在 因特网 中 路 由 选择 往往 是 不 对 称 的 [ Paxson 
1196] ， 也 就 是 说 从 A 到 B 的 路 径 与 从 B 到 A 的 路 径 可 以 不 相同 。 


1È 


当 一 个 耻 数 据 报 将 从 某 个 接口 送出 时 ， 如 果 它 的 大 小 超过 相应 链 路 的 
MTU，IPv4 和 IPv6 都 将 执行 分 片 (fragmentation) 。 这 些 片 段 在 到 达 最 终 目 的 
地 之 前 通常 不 会 被 重组 (reassembling) 。IPv4 主 机 对 其 产生 的 数据 报 执行 分 
片 ，IPv4 路 由 器 则 对 其 转发 的 数据 报 执 行 分 片 。 然 而 IPv6 只 有 主机 对 其 产生 的 
数据 报 执行 分 片 ，IPv6 路 由 器 不 对 其 转发 的 数据 报 执行 分 乒 。 

我 们 必须 小 心 这 些 术语 的 使 用 。 一 个 标记 为 了 Pv6 路 由 器 的 设备 可 能 执行 
分 片 ， 不 过 只 是 对 于 那些 由 它 产 生 的 数据 报 ， 而 绝 不 是 对 于 那些 由 它 转发 的 
数据 报 。 当 该 设备 产生 IPv6 数 据 报 时 ， 它 实际 上 作为 主机 运作 。 举 例 来 说 ， 
大 多 数 路 由 器 文 持 Telnet 协 议 ， 管 理 员 束 用 它 来 配置 路 由 器 。 由 路 由 器 的 
Telnet 服 务 咒 产生 的 卫 数 据 报 是 由 路 由 天 产生 的 ， 而 不 是 由 路 由 器 转发 的 。 

你 可 能 注意 到 ，IPv4 首 部 (图 A-1) 有 用 于 处 理 IPv4 分 片 的 字段 ，IPv6 首 

部 (图 A-2) 却 没有 类 似 的 字段 。 既 然 分 片 是 例外 情况 而 不 是 通常 情况 ，IPv6 
于 是 引入 一 个 可 选 首部 以 提供 分 片 信息 。 
某 些 通常 用 作 路 由 句 的 防火 墙 可 能 会 重组 分 片 了 的 分 组 ， 以 便 查 看 整个 
IP 数 据 报 的 内 容 。 这 样 做 使 得 不 必 在 防火 墙 上 引入 额外 的 复 灯 性 就 能 够 防止 
某 些 攻击 。 它 还 要 求 防火 墙 设备 是 进出 网 络 的 唯一 路 径 上 的 设备 ， 从 而 减少 
了 元 余 的 机 会 。 

IPv4 首 部 (图 A-1) 的 “不 分 片 (don't fragment) ”位 〈 即 DEF 位 ) 若 被 设 
置 ， 那 么 不 管 是 发 送 这 些 数据 报 的 主机 还 是 转发 它们 的 路 由 器 ， 都 不 允许 对 
它们 分 片 。 当 路 由 器 接收 到 一 个 超过 其 外 出 链 路 MTU 大 小 且 设 置 了 DF 位 的 
IPv4 数 据 报 时 ， 它 将 产生 一 个 ICMPv4“destination unreachable, fragmentation 
needed but DF bit set” (目的 地 不 可 达 ， 需 分 片 但 DF 位 已 设置 ) 出 错 消息 (图 
A-15) 。 

既然 IPv6 路 由 器 不 执行 分 片 ， 每 个 IPv6 数 据 报 于 是 隐 伟 一 个 DF 位 。 当 
IPv6 路 由 器 接收 到 一 个 超过 其 外 出 链 路 MTU 大 小 的 IPv6 数 据 报时 ， 它 将 产生 
一 个 ICMPv6“packet too big” (428 AK) 出 错 消 息 (图 A-16) ° 

IPv4 的 DF 位 和 IPv6 的 隐 含 DF 位 可 用 于 路 径 MTU 发 现 〈IPv4 的 情形 见 RFC 
1191 [Mogul and Deering 1990] ，IPv6 的 情形 见 RFC 1981 |McCann, Deering, 
and Mogul 1996] ) 。 举 例 来 说 ， 如 果 基 于 IPv4 的 TCP 使 用 该 技术 ， 那 么 它 将 


在 所 发 送 的 所 有 数据 报 中 设置 DEF 位 。 如 有 果 某 个 中 间 路 由 器 返回 一 个 
ICMP“destination unreachable, fragmentation needed but DF bit set” 错 误 ，TCP 就 
减 小 每 个 数据 报 的 数据 量 并 重 传 。 路 径 MTU 发 现 对 于 IPv4 是 可 选 的 ， 然 而 
IPv6 的 所 有 实现 要 么 必须 支持 它 ， 要 么 必须 总 是 使 用 最 小 的 MTU 发 送 IPv6 数 
据 报 。 

路 径 MTU 发 现在 如 今 的 因特网 上 是 有 问题 的 ， 许 多 防火 墙 丢 弃 所 有 ICMP 
消息 ， 包 括 用 于 路 径 MTU 发 现 的 上 述 消息 。 这 意味 着 TCP 永 远 得 不 到 要 求 它 
降低 所 发 送 数据 量 的 信和 号。 编写 本 书 时 ，IETF 已 经 开始 党 试 定义 不 依赖 于 
ICMP 出 错 消息 的 另 一 种 路 径 MTU 发 现 方法 。 

IPV4 和 IPv6 都 定义 了 最 小 重组 缓冲 区 大 小 (minimum reassembly buffer 
size) ， 它 是 IPv4 或 IPv6 的 任何 实现 都 必须 保证 支持 的 最 小 数据 报 大 小 。 其 值 
对 于 IPv4 为 576 字 节 ， 对 于 IPv6 为 1500 字 节 。 例 如 ， 就 IPv4 而 言 ， 我 们 不 能 判 
定 某 个 给 定 目 的 地 能 否 接 受 577 字 市 的 数据 报 。 为 此 有 许多 使 用 UDP 的 IPv4 网 
络 应 用 〈 如 DNS、RIP、TFTP、BOOTP、SNMP) 避免 产生 大 于 这 个 大 小 的 
数据 报 。 

TCP 有 一 个 MSS (maximum segment size， 最 大 分 节 大 小 ) ， 用 于 向 对 端 
TCP 通 告 对 端 在 每 个 分 节 中 能 发 送 的 最 大 TCP 数 据 量 。 在 图 2-5 中 我 们 看 到 过 
SYN 分 节 上 的 MSS 选 项 。MSS 的 目的 是 告诉 对 端 其 重组 缓 神 区 大 小 的 实际 
值 ， 从 而 试图 避免 分 上 请 。MSS 经 常设 置 成 MTU 减 去 PP 和 TCP 首 部 的 固定 长 
度 。 在 以 太 网 中 使 用 IPv4 的 MSS 值 为 1460， 使 用 IPv6 的 MSS 值 为 1440 (两 者 的 
TCP 首 部 都 是 20 个 字 节 ， 但 IPv4 首 部 是 20 字 节 ，IPv6 首 部 却 是 40 字 节 ) > YE 
TCP 的 MSS 选 项 中 ，MSS 值 是 一 个 16 位 的 字段 ， 限 定 其 最 大 值 为 65 535。 这 对 
于 IPv4 是 适合 的 ， 因 为 IPv4 数 据 报 中 的 最 大 TCP 数 据 量 为 65 495 (65 535 减 去 
IPv4 首 部 的 20 字 节 和 TCP 首 部 的 20 字 节 ) 。 然 而 对 于 具有 特大 净 荷 选项 的 
IPv6， 却 需要 使 用 另外 一 种 技巧 (RFC 2675 | Borman, Deering, and Hinden 
1999] ) 。 首 先 ， 没 有 特大 净 荷 选项 的 IPv6 数 据 报 中 的 最 大 TCP 数 据 量 为 65 
515 (65 535 减 去 TCP 首 部 的 20 字 节 ) 。65 535 这 个 MSS 值 于 是 被 视 为 表示 “无 
限 * 的 一 个 特殊 值 。 该 值 只 在 用 到 特大 净 丛 选项 时 才 使 用 ， 不 过 这 种 情况 却 要 
求实 际 的 MTU 超 过 65 535。 其 次 ， 如 果 TCP 使 用 特大 净 荷 选项 ， 并 且 接 收 到 的 


对 端 通告 的 MSS 为 65 535, JA AT ZRH FREI TUNER i ER MTU e 
如 果 这 个 值 太 大 〈 也 就 是 说 所 在 路 径 中 某 个 链 路 的 MTU 比 较 小 ) ， 那 么 路 径 
MTU 发 现 功 能 将 确定 这 个 较 小 值 。 

SCTP 基 于 到 对 端 所 有 地 址 发 现 的 最 小 路 径 MTU 保 持 一 个 分 片 点 。 这 个 最 
小 MTU 大 小 用 于 把 较 大 的 用 户 消 息 分 割 成 较 小 的 能 够 以 单个 了 数据 报 发 送 的 
大 干 片段 。SCTP_MAXSEG 套 接 字 选项 可 以 影响 该 值 ， 使 得 用 户 能 够 请 求 一 
个 更 小 的 分 片 点 。 

2.11.1 TCP 输 出 

图 2-15 展 示 了 某 个 应 用 进程 写 数据 到 一 个 TCP 套 接 字 中 时 发 生 的 步骤 。 

每 一 个 TCP 套 接 字 有 一 个 发 送 缓冲 区 ， 我 们 可 以 使 用 SO_SNDBUF 套 接 字 
选项 来 更 改 该 缓冲 区 的 大 小 ( 见 7.5 节 ) 。 当 某 个 应 用 进程 调用 write 时 ， 内 核 
从 该 应 用 进程 的 缓冲 区 中 复制 所 有 数据 到 所 写 套 接 字 的 发 送 缓冲 区 。 如 果 该 
套 接 字 的 发 送 缓冲 区 容 不 下 该 应 用 进程 的 所 有 数据 (或 是 应 用 进程 的 缓冲 区 
大 于 套 接 字 的 发 送 缓冲 区 ， 或 是 套 接 字 的 发 送 缓冲 区 中 已 有 其 他 数据 ) ， 该 
应 用 进程 将 被 投入 睡眠 。 这 里 假设 该 套 接 字 是 阻塞 的 ， 它 是 通常 的 默认 设 
置 。 (我 们 将 在 第 16 章 中 阐述 非 阻塞 的 套 接 字 。) 内 核 将 不 从 write 系统 调用 
返回 ， 直 到 应 用 进程 缓冲 区 中 的 所 有 数据 都 复制 到 套 接 字 发 送 缓冲 区 。 
此 ， 从 写 一 个 TCP 套 接 字 的 write 调用 成 功 返回 仅仅 表示 我 们 可 以 重新 使 用 原 
来 的 应 用 进程 缓冲 区 ， 并 不 表明 对 端的 TCP 或 应 用 进程 已 接收 到 数据 。 (我 们 
将 在 7.5 节 随 SO_LINGER 套 接 字 选项 详细 讨论 这 一 点 。) 


应 用 进程 缓冲 区 (任意 大 小 ) 
= 用 户 进程 


套 接 字 发 送 缓冲 区 (so SNDBUF) 


MSS 大 小 的 TCP 分 节 
通常 MSS 三 MTU 一 40 (IPv4) 或 MTU 一 60 (IPv6) 


| MTU 大 小 的 IPv4 或 IPv6 分 组 


输出 队列 


数据 链 路 


图 2-15 应 用 进程 写 TCP 套 接 字 时 涉及 的 步骤 和 缓冲 区 

这 一 端的 TCP 提 取 套 接 字 发 送 缓冲 区 中 的 数据 并 把 它 发 送 给 对 端 TCP， 其 
过 程 基 于 TCP 数 据 传送 的 所 有 规则 (TCPv1 的 第 19 章 和 第 20 章 ) 。 对 端 TCP 必 
须 确认 收 到 的 数据 ， 伴 随 来 自 对 端的 ACK 的 不 断 到 达 ， 本 端 TCP 至 此 才能 从 
套 接 字 发 送 缓冲 区 中 丢弃 已 确认 的 数据 。TCP 必 须 为 已 发 送 的 数据 保留 一 个 副 
本 ， 直 到 它 被 对 端 确 认为 止 。 

本 端 TCP 以 MSS 大 小 的 或 更 小 的 块 把 数据 传递 给 卫 ， 同 时 给 每 个 数据 块 安 
上 一 个 TCP 首 部 以 构成 TCP 分 节 ， 其 中 MSS 或 是 由 对 端 通告 的 值 ， 或 是 536 
( 若 对 端 未 发 送 一 个 MSS 选 项 ) 。 (536 是 IPv4 最 小 重组 缓冲 区 字 节 数 576 减 
去 IPv4 首 部 字 节 数 20 和 TCP 首 部 字 节 数 20 的 结果 。) IP 给 每 个 TCP 分 节 安 上 一 
个 IP 首 部 以 构成 IP 数 据 报 ， 并 按照 其 目的 IP 地 址 查找 路 由 表 项 以 确定 外 出 接 
口 ， 然 后 把 数据 报 传递 给 相应 的 数据 链 路 。IP 可 能 在 把 数据 报 传递 给 数据 链 
路 之 前 将 其 分 片 ， 不 过 我 们 已 经 谈 到 MSS 选 项 的 目的 之 一 就 是 试图 避免 分 
片 ， 较 新 的 实现 还 使 用 了 路 径 MTU 发 现 功能 。 每 个 数据 链 路 都 有 一 个 输出 队 
列 ， 如 果 该 队列 已 满 ， 那 么 新 到 的 分 组 将 被 丢弃 ， 并 沿 协 议 栈 向 上 返回 一 个 


错误 : 从 数据 链 路 到 IP， 再 从 IP 到 TCP。TCP 将 注意 到 这 个 错误 ， 并 在 以 后 某 
个 时 刻 重 传 相应 的 分 节 。 应 用 进程 并 不 知道 这 种 暂时 的 情况 。 

2.11.2 UDP 输出 

图 2-16 展 示 了 某 个 应 用 进程 写 数据 到 一 个 UDP 套 接 字 中 时 发 生 的 步骤 。 

一 次 我 们 以 虚线 框 展示 套 接 字 发 送 缓冲 区 ， 因 为 它 实际 上 并 不 存在 。 
任何 UDP 套 接 字 都 有 发 送 缓冲 区 大 小 〈 我 们 可 以 使 用 SO_SNDBUF 套 接 字 选项 
更 改 它 ， 见 7.5 节 ) ， 不 过 它 仅 仅 是 可 写 到 该 套 接 字 的 UDP 数据 报 的 大 小 上 
限 。 如 果 一 个 应 用 进程 写 一 个 大 于 套 接 字 发 送 缓冲 区 大 小 的 数据 报 ， 内 核 将 
返回 该 进程 一 个 EMSGSIZE 错 误 。 既 然 UDP 是 不 可 靠 的 ， 它 不 必 保 存 应 用 进 
程 数据 的 一 个 副本 ， 因 此 无 需 一 个 真正 的 发 送 缓冲 区 。 (应 用 进程 的 数据 在 
沿 协议 栈 向 下 传递 时 ， 通 常 被 复制 到 某 种 格式 的 一 个 内 核 缓冲 区 中 ， 然 而 当 
该 数据 被 发 送 之 后 ， 这 个 副本 就 被 数据 链 路 层 丢 弃 了 。) 
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图 2-16 应 用 进程 写 UDP 套 接 字 时 涉及 的 步骤 与 缓冲 区 


[x 


这 一 端的 UDP 简单 地 给 来 自用 户 的 数据 报 安 上 它 的 8 字 节 的 首部 以 构成 
UDP 数据 报 ， 然 后 传递 给 IP。IPv4 或 ITPv6 给 UDP 数据 报 安 上 相应 的 卫 首 部 以 构 
成 IP 数 据 报 ， 执 行路 由 操作 确定 外 出 接口 ， 然 后 或 者 直接 把 数据 报 加 入 数据 
链 路 层 输出 队列 (如 果 适 合 于 MTU) ， 或 者 分 片 后 再 把 每 个 片段 加 入 数据 链 
路 层 的 输出 队列 。 如 果 某 个 UDP 应 用 进程 发 送 大 数据 报 ( 壁 如 说 2000 字 节 的 
数据 报 ) ， 那 么 它们 相 比 TCP 应 用 数据 更 有 可 能 被 分 片 ， 因 为 TCP 会 把 应 用 数 
据 划 分 成 MSS 大 小 的 块 ， 而 UDP 却 没有 对 等 的 手段 。 

从 写 一 个 UDP 套 接 字 的 write 调用 成 功 返回 表示 所 写 的 数据 报 或 其 所 有 片 
段 已 被 加 入 数据 链 路 层 的 输出 队列 。 如 果 该 队列 没有 足够 的 空间 存放 该 数据 
报 或 它 的 某 个 片段 ， 内 核 通 常会 返回 一 个 ENOBUFS 错 误 给 它 的 应 用 进程 。 

不 幸 的 是 ， 有 些 UDP 的 实现 不 返回 这 种 错误 ， 这 样 甚至 数据 报 未 经 发 送 
就 被 丢弃 的 情况 应 用 进程 也 不 知道 。 

2.11.3 SCTP 输 出 

图 2-17 展 示 了 某 个 应 用 进程 写 数据 到 一 个 SCTP 套 接 字 中 时 发 生 的 步骤 。 

既然 SCTP 是 与 TCP 类 似 的 可 靠 协议 ， 它 的 套 接 字 也 有 一 个 发 送 缓冲 区 ， 
而 且 跟 TCP 一 样 ， 我 们 可 以 用 SO_SNDBUF 套 接 字 选 项 来 更 改 这 个 缓冲 区 的 大 
小 〈 见 7.5 节 ) 。 当 一 个 应 用 进程 调用 write 时 ， 内 核 从 该 应 用 进程 的 缓冲 区 中 
复制 所 有 数据 到 所 写 套 接 字 的 发 送 缓冲 区 。 如 果 该 套 接 字 的 发 送 缓 冲 区 容 不 
下 该 应 用 进程 的 所 有 数据 (或 是 应 用 进程 的 缓冲 区 大 于 套 接 字 的 发 送 缓 冲 
区 ， 或 是 套 接 字 的 发 送 缓冲 区 中 已 有 其 他 数据 ) ， 应 用 进程 将 被 投入 睡眠 。 
这 里 假设 该 套 接 字 是 阻塞 的 ， 它 是 通常 的 默认 设置 。 (我 们 将 在 第 16 章 中 阅 
述 非 阻塞 的 套 接 字 。) 内 核 将 不 从 write 系 统 调用 返回 ， 直 到 应 用 进程 缓冲 区 
中 的 所 有 数据 都 复制 到 套 接 字 发 送 缓冲 区 。 因 此 ， 从 写 一 个 SCTP 套 接 字 的 
write 调 用 成 功 返 回 仅仅 表示 我 们 可 以 重新 使 用 原来 的 应 用 进程 缓冲 区 ， 并 不 
表明 对 端的 SCTP 或 应 用 进程 已 接收 到 数据 。 
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图 2-17 应 用 进程 写 SCTP 套 接 字 时 涉及 的 步骤 和 缓冲 区 
这 一 端的 SCTP 提 取 套 接 字 发 送 缓冲 区 的 数据 并 把 它 发 送 给 对 端 SCTP， 其 
过 程 基于 SCTP 数 据 传送 的 所 有 规则 (数据 传送 的 细节 见 [Stewart and Xie 
2001] 的 第 5 章 ) 。 本 端 SCTP 必 须 等 待 SACK， 在 累积 确认 点 超过 已 发 送 的 数 
据 后 ， 才 可 以 从 套 接 字 缓冲 区 中 删除 该 数据 。 


2.12 标准 因特网 服务 


图 2-18 列 出 了 TCP/IP 多 数 实 现 都 提供 的 若干 标准 服务 。 注 意 ， 表 中 所 有 服 
务 同时 使 用 TCP 和 和 UDP 提供， 并 且 这 两 个 协议 所 用 端口 号 也 相同 。 

这 些 服 务 通常 由 Unix 主 机 的 inetd 守 护 进 程 提供 ( 见 13.5 节 ) 。 它 们 还 提供 
使 用 标准 的 Telnet 客 户 程序 就 能 完成 的 简易 测试 机 制 。 举 例 来 说 ， 下 面 就 是 时 
间 获 取 和 回 射 这 两 个 标准 服务 器 的 测试 过 程 : 


aix % telnet freebsd daytime 


Trying 12.106.32.254... Telnet fj tH 
Connected to freebsd.unpbook.com. Telnet 客 户 输出 


Escape character is 'A].. Telnet ZP f&j tH 


de 


x 


Mon Jul 28 11:56:22 2003 


Connection closed by foreign host. 


aix % telnet freebsd echo 
Trying 12.106.32.254... 


Connected to freebsd.unpbook.com. 


Escape character is '^J'. 
hello,world 


hello,world 
^] 


Telnet 客 户 交 谈 


telnet> quit 


Connection closed. 


echo ( 回 射 ) 


discard (EF) 
daytime (HfTH]ZKEX ) 


chargen (FFÆ) 


time (流逝 时 间 获 取 ) 


daytime 服 务 器 输出 
Telnet 客 户 输出 (服务 器 关闭 连 


Telnet 客 户 输 出 
Telnet 客 户 输 出 
Telnet 客 户 输 出 
我 们 键入 这 行 
它 由 服务 器 回 射 回来 
键入 Ctrl+] 以 与 


告诉 客户 我 们 已 测试 完 


这 次 客户 目 己 关闭 连接 


服务 器 返回 客户 发 送 的 数据 

服务 器 废弃 客户 发 送 的 数据 

服务 器 返回 直观 可 读 的 日 期 和 时 间 
TCP 服 务 嚣 发 送 连 续 的 字符 流 ， 直 到 客 


户 终止 连接 。UDP 服 务 器 则 每 当 客 户 发 送 


-个 数据 报 就 返 送 一 个 包含 随机 数量 


(0~512) 字符 的 数据 报 


服务 器 返回 一 个 32 位 二 进 制 数 值 表示 


的 时 间 。 这 个 数值 表示 从 1900 年 1 月 1 日 子 
时 (UTC 时 间 ) 以 来 所 流逝 的 秒 数 


图 2-18 大 多 数 实现 提供 的 标准 TCP/IP 服 务 [12] 


在 这 两 个 例子 中 ， 我 们 键入 主机 名 和 服务 名 (daytime 和 echo) 。 这 些 服 
务 名 由 /etc/services 文 件 映 射 到 图 2-18 所 示 的 端口 号 ， 详 见 11.5T。 

注意 ， 当 我 们 连接 到 daytime 服 务 器 时 ， 服 务必 执行 主动 关 财 ， 然 而 当 连 
接 到 echo 服 务 器 时 ， 客 户 执行 主动 关闭 。 回 顾 图 2-4， 我 们 知道 执行 主动 关闭 
的 那 一 端 就 是 历经 TIME_WAIT 状 态 的 那 一 端 。 


Fi 


Wo 


为 了 应 付 针 对 它们 的 拒绝 服务 攻击 和 其 他 资源 使 用 攻击 ， 在 如 今 的 系统 


， 这 些 人 简单 的 服务 通常 被 禁用 。 


2.13 应 用 的 协议 使 用 


图 2-19 总 结 了 各 种 常见 的 因特网 应 用 对 协议 的 使 用 情况 。 
前 两 个 因特网 应 用 ping 和 traceroute 是 使 用 ICMP 协 议 实现 的 网 络 诊断 应 


。traceroute 自 行 构造 UDP 分 组 来 发 送 并 读 取 所 引发 的 ICMP 应 答 。 


紧 接着 是 3 个 流行 的 路 由 协议 ， 它 们 展示 了 路 由 协议 使 用 的 各 种 传输 协 
OSPF 通 过 原始 套 接 字 直接 使 用 IP，RIP 使 用 UDP，BGP 使 用 TCP ° 
接 下 来 5 个 是 基于 UDP 的 网 络 应 用 ， 然 后 是 7 个 TCP 网 络 应 用 和 4 个 同时 使 


用 UDP 和 TCP 的 网 络 应 用 ， 最 后 5 个 是 了 电话 网 络 应 用 ， 它 们 或 者 独自 使 用 
SCTP， 或 者 选用 UDP、TCP 或 SCTP > 


|. enr | P ICMP | UDP | TCP | SCTP | 


traceroute 


OSPF 〈 路 由 协议 ) 

RIP〈 路 由 协议 》 

BGP (路 由 协议 ) 
BOOTP (引导 协议 ) 
DHCP (引导 协议 ) 

NTP (时 间 协 议 ) 

TFTP〈 低 级 FTP) 

SNMP 网络 管理 ) 
SMTP (电子 邮件 ) 
Telnet (远程 登录 ) 

SSH〔 安 全 的 远程 登录 ) 
FTP (文件 传送 ) 

HTTP (Web) 

NNTP RE) 

LPR 〈 远 程 打 印 ) 

DNS 域名 系统 ) 
NFS〔 网 络 文件 系统 ) 
Sun RPC (远程 过 程 调用 ) 
DCE RPC (远程 过 程 调用 ) 
IUA (IP 之 上 的 ISDN) 
M2UA/M3UA (SS7 电 话 信 令 ) 
H.248 (媒体 网 关 控 制 ) 
H.323 (IP 电 话 ) 

SIP (IP 电 话 ) 


图 2-19 各 种 常见 因特网 应 用 的 协议 使 用 情况 


2.14 小 结 


